Olá pessoal, vamos de mais um artigo?! 😉
Neste artigo vou abordar um tópico que vem sendo discutido e praticado no mundo todo em diversas empresas no tocante ao uso de dados de diversas fontes, estou falando do Data Lake (lago de dados).
Apesar de ser algo que diversas empresas privadas vem praticando, o uso de tecnologias voltadas para o armazenamento de grande volume e variedade de dados (dois conceitos aplicados em Big Data) também tem adentrado no universo de entidades públicas, através do uso de Data Lake e isso tem refletido nos editais de alguns concursos, onde o assunto passou a ser explicitamente cobrado.
Mas, o que vem a ser um Data Lake (lago de dados) ?
Trata-se de um repositório central de dados numa empresa ou organização, onde são armazenados dados de diversas fontes em seu estado bruto, ou seja, da forma como ele é e sem processamento prévio. Tais dados são então disponibilizados para diferentes usuários na organização que deseja trabalhar com análise de dados, podendo fazer diversos cruzamentos entre as diferentes fontes de dados carregadas.
Não é correto afirmar que o Data Lake é uma ferramenta por si só, muito pelo contrário, trata-se de um conceito de armazenamento (ou estratégia de armazenamento), porém o mercado oferece diversas soluções que ajudam a materializar este conceito.
Os dados armazenados independem de schema estabelecido, podendo ser dados estruturados ou não-estruturados, ou seja, o objetivo inicial do Data Lake é coletar os dados como eles são, depois, em outro momento, a empresa ou organização irá definir como estes dados serão utilizados e é a partir daí que pode-se construir um modelo de dados, que serão então disponibilizados para uso específico.
Com isso, podemos também afirmar que o uso destes dados não se destina apenas a área de TI da organização, muito pelo contrário, diferentes áreas de negócio irão utilizar estes dados para diferentes finalidades.
Um ponto importante que se faz necessário falar é que não se deve confundir Data Lake com Data Warehouse, até porque são coisas diferentes, porém é comum que a partir de um lago de dados (data lake), se chegue a um armazém de dados (data warehouse).
O primeiro ponto a ser observado como diferença entre ambos, é que o Data Lake não possui uma estrutura definida, uma vez que os dados carregados podem ser estruturados e não-estruturados (Variedade do Big Data), já o Data Warehouse pressupõe a existência de um modelo dimensional estabelecido de acordo com o objetivo do negócio em que será aplicado.
Um outro ponto importante a ser observado como diferença entre ambos, é na forma de ingestão dos dados, enquanto que o Data Warehouse usa o conceito de ETL, o Data Lake utiliza o conceito de ELT, onde os dados primeiro são carregados, para depois então serem transformados.
Devido ao fato de no Data Lake os dados serem primeiro carregados (Load) para depois serem transformados (Transform), existe então o conceito de zonas, onde cada zona no Data Lake possui dados em certo nível de estado, a literatura defende que as zonas vão do estado mais bruto (Raw Zone), sem processamento, até o estado mais refinado e processado (Refined Zone).
No próximo artigo veremos com detalhes cada uma destas diferentes zonas no Data Lake.
Forte abraço e ótimos estudos! 😉
=========================================================
Prof. Luis Octavio Lima
Participe da conversa