Divido esse artigo com um ex-aluno que trabalha atualmente com blockchain e tecnologias novas de vanguarda, vamos responder então uma dúvida dos nossos alunos, que é a diferença entre ETL e ELT.
O ETL como mostra a imagem acima vem de Extraction, Transformation and Load(Extrair, Transformar e Carregar), de forma bem simples e resumida, o termo Extrair diz sobre a leitura de dados de uma ou mais fontes de dados, Transformar aponta para uma limpeza, validação e até uma conversão de dados e Carregar é sobre como é o carregamento dos dados do data warehouse.
Mesmo sendo utilizado por longos anos, o surgimento de novas tecnologias que revolucionaram a computação, como a própria data warehouse, computação em nuvem e o aumento dos volumes de dados produzidos nesse avanço, o ETL começou a ser repensado, já que essa forma tradicional estava sendo trocada por algo mais chamativo e inovar, o ELT, que veio ganhando protagonismo e muito espaço nas operações modernas de dados feitas atualmente.
Todo esse processo de Extrair, Transformar e Carregar, para se tornar um fluxo eficiente deve executar as funções de extração de dados que possuem fontes diversas; transformação de dados para o uso dos mesmos e o carregamento de dados em uma estrutura de data warehouse na nuvem.
O Processo ELT (Extract-Load-Transform) já é uma modernização do ETL, pois o ELT é visto como um processo mais ágil para o carregamento e o processamento dos dados, e existe uma inversão na ordem das etapas da transformação de dados, como pode ser visto na imagem.
O Fluxo do processo ELT seguem em uma outra ordem, a começar pela extração:
A extração em ETL é a primeira etapa de todo o processo, a começar pela coleta dos dados que vem de forma bruta de uma ou várias fontes, posteriormente esses dados serão integrados a um repositório de dados único.
Após a extração dos dados, a segunda etapa no fluxo será o Carregamento:
O Carregamento como o nome já diz, irá carregar os dados em uma Data Warehouse ou em um repositório de dados dependendo da ocasião.
E no final do fluxo, a terceira e ultima etapa será a Transformação:
Essa etapa a transformação dos dados brutos vai acontecer, tornando os dados brutos em dados modelados dentro do Data Warehouse, para que eles possam ser utilizados para uma aplicação de Business Intelligence, análise de dados ou até mesmo advanced analytics.
Com essas informações temos entendimento de como funciona de forma singular cada processo do fluxo ETL e do fluxo ELT, porém podemos trazer ao conhecimento as diferenças entre os processos.
No processo ELT temos o inverso do que se aborda no processo ETL, onde a fase de transformação de dados ocorre logo após a coleta de dados e o carregamento das informações a partir de um repositório de dados centralizado, e não antes dessa etapa, tornado se possível que dados brutos coletados possam ser transformados em dados modelados dentro do data warehouse.
A inversão de etapas no processo ELT possibilita uma redução considerável do tempo de carregamento de dados, permitindo que a transformação de dados seja feita por analistas de dados, não dependendo de profissionais que com capacitação tão alta tecnicamente como um engenheiro de dados por exemplo.
Todo esse processo de implementação do ETL na prática faz com que esses mesmo engenheiros de dados foquem totalmente nas etapas de extração e carregamento dos dados, dessa forma a etapa de transformação de dados fica nas mãos de outros profissionais mais próximos da empresa, que tem maior e melhor conhecimento das regras de negócio daquela instituição.
Esses profissionais da empresa podem ser analistas, cientistas de dados, engenheiros analíticos e dentre outros profissionais, na qual empregar essa função para esses profissionais implica em vantagens tais como menos tempo gasto entre as etapas de extração e transformação de dados, menos dependência de profissionais altamente técnicos, independência dos analistas para manuseio de dados brutos, dentre outros benefícios.
Uma diferença bem marcante dentre ETL e ELT é o tempo de carregamento dos dados, pois o processo ETL usa de sistemas distintos, fazendo com que haja demora no carregamento dos dados, em contraponto do ELT, que utiliza de sistemas de carregamento integrados, fazendo com o carregamento de dados seja feito uma única fez.
O mesmo ocorre na questão de tempo de transformação dos dados, no ETL há uma demora considerável, principalmente em transformação de grandes volumes de dados, no processo ELT a transformação de dados é feita também de maneira integrada, fazendo com que a velocidade independa do tamanho ou da complexidade dos dados.
Um ponto importante para a utilização de um processo, é o seu nível de custo e benefício, e os processo ETL e ELT tem diferença marcante nesse aspecto, na qual o ETL possui uma abordagem não econômica, principalmente quando se trata de empresas de pequeno ou médio porte, em contra ponto o ELT possui uma abordagem de processo mais escalável, adaptável e economicamente acessível para negócios de todos os tamanhos.
Essas diferenças apontam bem para a preferência e mais aceitação do ELT em relação ao ETL.
Então vamos ver algumas questões para poder fixar essas diferenças.
- Ano: 2022 Banca: FGV Órgão: CGU Prova: FGV – 2022 – CGU – Auditor Federal de Finanças e Controle – Tecnologia da Informação
Uma organização deseja implementar um pipeline de dados e está avaliando a opção mais adequada para o seu contexto de operação. Em torno de 40% dos dados consumidos pela organização se encontram em planilhas eletrônicas que contêm dados sensíveis, produzidas semanalmente por suas unidades de negócio. Os outros 60% dos dados se encontram em alguns bancos de dados relacionais de sistemas de produção da organização. O tamanho da base é de moderado a pequeno, mas existe a necessidade de conformidade com normas de privacidade e confidencialidade dos dados. O objetivo do pipeline é fornecer insumos para um departamento que realiza análises de dados com métodos não supervisionados de aprendizagem de máquina para elaborar relatórios periódicos mensais. A organização está avaliando a construção de um Armazém de Dados (ETL) ou de um Lago de Dados (ELT).
A proposta de modelo adequada e corretamente justificada é
- A) Armazém de Dados. Ambos os modelos são adequados, mas Lago de Dados tem maior latência até a carga (L) e custo maior;
- B) Armazém de Dados. Esse modelo possui menor latência até a carga (L) e, ao contrário do Lago de Dados, opera de forma eficiente com dados relacionais;
- C) Armazém de Dados. O processo ETL é mais adequado para o tratamento dos dados sensíveis e os casos de uso são bem conhecidos;
- D) Lago de Dados. Esse modelo possui menor latência até a carga (L) e permite a extração (E) de dados semiestruturados e não estruturados;
- E) Lago de Dados. Esse modelo não necessita de hardware especializado e, ao contrário do Armazém de Dados, possibilita tarefas de aprendizado de máquina.
- Ano: 2021 Banca: CESPE / CEBRASPE Órgão: SEFAZ-CE Prova: CESPE / CEBRASPE – 2021 – SEFAZ-CE- Auditor Fiscal de Tecnologia da Informação da Receita Estadual
Em relação a big data e analytics, julgue o próximo item.
Comparado ao ETL, o ELT apresenta vantagens como tempos menores de carregamento e de transformação de dados e, consequentemente, menos custo de manutenção.
Certo
Errado
- Ano: 2021 Banca: CESPE / CEBRASPE Órgão: TCE-RJ Prova: CESPE – 2021 – TCE-RJ – Analista de Controle Externo – Especialidade: Ciências Contábeis
A Respeito de bancos de dados relacionais e de modelagem dimensional, julgue o item subsequente.
ETL (Extract Transform Load) é uma ferramenta utilizada para extrair informações e realizar análise multidimensional no data warehouse.
Certo
Errado
Obs: Gabarito no final do artigo.
Então, com essas questões acredito que agora estará mais clara a diferença ente essas soluções. Dessa forma encerro esse artigo e desejo sucesso! Até mais!
Palavras-Chave: ETL, ELT, DATA WAREHOUSE, REPOSITÓRIO, PROCESSO, DADOS.
Gabarito:
- C) Armazém de Dados. O processo ETL é mais adequado para o tratamento dos dados sensíveis e os casos de uso são bem conhecidos;
- Certo. O ELT possui os benefícios de possuir tempos menores de carregamento e transformação de dados, e possui processo mais acessível e adaptável, tendo menor custo de manutenção.
- Errado. A função de gerar um ambiente de visualização multidimensional é o OLAP, não o processo ETL.
Referências:
INMON, William H. The data warehouse and data mining. Communications of the ACM, v. 39, n. 11, p. 49-51, 1996.
HOCKLY, Nicky; DUDENEY, Gavin. Current and future digital trends in ELT. Relc Journal, v. 49, n. 2, p. 164-178, 2018.
BLASI, Isabela. ETL X ELT: qual a diferença?. Indicium, 2021. Disponível em: https://blog.indicium.tech/etl-vs-elt-diferencas/ . Acesso em: 02 de jun. de 2022.
Professor Washington Almeida
Mestre em Engenharia de Software pelo Centro de Estudos e Sistemas Avançados do Recife – C.E.S.A.R. Atualmente é Analista Judiciário na Justiça Federal (TRF1), Professor no Gran Cursos Online e na Cesar School no curso Métricas Ágeis.. Certificado ISF ISO/IEC 27002. Ocupou a Função de Diretor do Núcleo de Operação de Centros de Dados na Justiça Federal- TRF1. Exerceu o cargo de Coordenador-Geral de Sistemas (DAS 101.4) no Ministério do Planejamento, Orçamento e Gestão – MPOG, servidor público ocupando o cargo de Analista em Tecnologia da Informação – ATI.
Charleson Guedes Ribeiro
Bacharel em Sistemas de Informação pela Anhanguera FACNET de Brasília, Atualmente Analista de sistemas, estudante e desenvolvedor em Blockchain, Dapps, Web3 e Finanças decentralizadas.
Clique nos links abaixo:
Receba gratuitamente no seu celular as principais notícias do mundo dos concursos!
Clique no link abaixo e inscreva-se gratuitamente: