Pessoal, trazendo mais um questionamento dos nossos alunos, vamos falar da diferença entre Big Data e Data Warehouse.
Segundo Inmon, Data Warehouse – DW é coleção de dados orientada ao assunto, não volátil, integrada, variante no tempo para apoiar as decisões da administração. Esse conceito você já deve ter ouvido falar, não é tão novo e já é cobrado em concursos a bastante tempo. A questão é que nos últimos anos surgiram novas soluções chamadas de Big Data, que são soluções que tratam dados de maneira diferente dos tradicionais DW.
Em Big Data temos a definição dos V, primeiro os 3vs que caracterizam essas soluções, Volume, Velocidade e Variedade, aqui mesmo nesse blog já explicamos esses conceitos e se quiser entender melhor procure os artigos que estão nas referências. Mas hoje se fala em 5vs, adicionados a Veracidade e o Valor, o primeiro versando sobre a confiabilidade do dado e o outro do ganho na utilização dos mesmos.
Até esse ponto acho que todo mundo entende, mas a questão é que as bancas misturam os conceitos e muitos alunos acabam ficando confusos, então veja algumas diferenças básicas conforme a figura abaixo.
DW vs DATA LAKE
Basicamente nos DW temos dados estruturados que passaram pelo processo de ETL até ser disponibilizado para análise com ferramentas OLAP ou uso de Data Mining, e nos repositórios de Big Data, os Data Lake, nós temos dados de todos os tipos, lembre-se da Variedade, então temos dados estruturados, não estruturados e semiestruturados. Por exemplo, bancos relacionais, json, xml, etc. Na figura abaixo mostramos a variedade de dados contidos em um Data Lake.
DATA LAKE
Então, veja, um Data Lake pode conter até mesmo DW inteiros, o que muda é o processo de tratamento desses dados, em soluções de Big Data se fala em processos ELT ao invés de ETL, no processo ELT primeiro temos a carga depois a transformação, mais uma vez note a diferença nas figuras a seguir.
ETL
ELT
Veja que basicamente as soluções de Big Data armazenam os dados para depois serem transformados conforme a necessidade de análise, escolhendo o conjunto de dados que será necessário aplicando técnicas de aprendizado de máquina, estatística e data mining.
Então vamos ver algumas questões para poder fixar essas diferenças.
Ano: 2018 Banca: CESPE / CEBRASPE Órgão: Polícia Federal Prova: CESPE – 2018 – Polícia Federal – Escrivão de Polícia Federal
Tendo como referência as informações apresentadas, julgue o item seguinte.
O big data consiste de um grande depósito de dados estruturados, ao passo que os dados não estruturados são considerados data files.
Certo
Errado
Ano: 2021 Banca: CESPE / CEBRASPE Órgão: SERPRO Prova: CESPE / CEBRASPE – 2021 – SERPRO – Analista – Especialização: Ciência de Dados
Com relação aos fundamentos do big data, julgue os itens que se seguem.
Big data caracteriza-se, principalmente, por volume, variedade e velocidade, o que se justifica devido ao fato de os dados serem provenientes de sistemas estruturados, que são maioria, e de sistemas não estruturados, os quais, embora ainda sejam minoria, vêm, ao longo dos anos, crescendo consideravelmente.
Certo
Errado
Ano: 2014 Banca: CESPE / CEBRASPE Órgão: TJ-SE Prova: CESPE – 2014 – TJ-SE – Analista Judiciário – Banco de Dados
Julgue os itens que se seguem, no que se refere a Big Data.
Em soluções Big Data, a análise dos dados comumente precisa ser precedida de uma transformação de dados não estruturados em dados estruturados
Certo
Errado
Ano: 2018 Banca: CESPE / CEBRASPE Órgão: Polícia Federal Prova: CESPE – 2018 – Polícia Federal – Papiloscopista Policial Federal
Julgue o item seguinte, a respeito de big data e tecnologias relacionadas a esse conceito.
De maneira geral, big data não se refere apenas aos dados, mas também às soluções tecnológicas criadas para lidar com dados em volume, variedade e velocidade significativos.
Certo
Errado
Obs: Gabarito no final do artigo.
Então, com essas questões acredito que agora estará mais clara a diferença ente essas soluções. Dessa forma encerro esse artigo e desejo sucesso! Até mais!
Palavras-Chave: BIG DATA, DATA WAREHOUSE, BANCO DE DADOS, DADOS.
Gabarito:
1. Errado. Big Data é um grande repositório de dados dos mais variados tipos.
2. Errado. A grande maioria dos dados é não estruturado.
3. Certo. Veja que para trabalhar os dados e analisar é necessária sua estruturação, logo basta lembrar do processo ELT (Extract-Load-Transform).
4. Certo. 3v de Big Data Volume, Velocidade e Variedade.
Referências:
INMON, William H. The data warehouse and data mining. Communications of the ACM, v. 39, n. 11, p. 49-51, 1996.
HOCKLY, Nicky; DUDENEY, Gavin. Current and future digital trends in ELT. Relc Journal, v. 49, n. 2, p. 164-178, 2018.
Professor Washington Almeida
Mestre em Engenharia de Software pelo Centro de Estudos e Sistemas Avançados do Recife – C.E.S.A.R. Atualmente é Analista Judiciário na Justiça Federal (TRF1), Professor no Gran Cursos Online e na Cesar School no curso Métricas Ágeis.. Certificado ISF ISO/IEC 27002. Ocupou a Função de Diretor do Núcleo de Operação de Centros de Dados na Justiça Federal- TRF1. Exerceu o cargo de Coordenador-Geral de Sistemas (DAS 101.4) no Ministério do Planejamento, Orçamento e Gestão – MPOG, servidor público ocupando o cargo de Analista em Tecnologia da Informação – ATI.
Participe da conversa