Big Data – Conceitos

Nocões sobre Big Data

Por
4 min. de leitura

Olá Pessoal!

Recentemente, houve um interesse crescente em Big Data, impulsionado principalmente por um grande número de problemas de pesquisa fortemente relacionados a aplicativos e sistemas da vida real, como representação, modelagem, processamento, consulta e mineração de repositórios maciços, distribuídos e em larga escala.

Nesse cenário as bancas vêm cobrando esse tema e vamos nesse artigo conceituar pilares dessa área e três questões para ver como as bancas estão cobrando.

O termo “Big Data” identifica tipos específicos de conjuntos de dados, principalmente dados não estruturados, que preenchem a camada de dados de aplicativos de computação científica.

Big Data pode ser entendido como “conjuntos de dados cujos tamanhos estão além da capacidade de ferramentas de software de banco de dados típicas capturar, armazenar, gerenciar e analisar”.

Além disso, o termo é geralmente usado para descrever a coleta, processamento, análise e visualização associada a conjuntos de dados muito grandes. Embora seja difícil definir Big Data, ele pode ser descrito em termos das características de dados do Big Data (o “o que” do Big Data); as arquiteturas e o processamento do Big Data (o “como” do Big Data); e os aplicativos de Big Data (o “porquê” do Big Data), a Figura 1 ilustra essa abordagem.

Figura 1 – Componentes da Definição de Big Data [1]

 

Outra definição de “Big Data” é usada principalmente como um termo genérico para cobrir uma variedade de dados, tecnologias e aplicativos. Isso contrasta com as abordagens anteriores de gerenciamento de dados, que geralmente são baseadas em modelos de dados que definem a estrutura e as operações em um banco de dados e especificam elementos, como estruturas de dados e operadores de dados.

O processo de coleta e organização de dados brutos para descobrir padrões e tirar conclusões sobre as informações é chamado de análise de dados. Difere da mineração de dados em três aspectos – escopo, objetivo e foco da análise.

A mineração de dados classifica o Big Data para identificar padrões não descobertos e identificar relacionamentos ocultos, enquanto a análise de dados se concentra na conclusão e no processo de derivá-lo com base apenas em informações já conhecidas pelo pesquisador. As organizações podem entender melhor o conteúdo dos dados e ajudá-los a identificar os dados, o que será útil para o escopo futuro dos negócios.

A abordagem conhecida como 3V (variedade, velocidade e volume) é amplamente usada, principalmente na literatura técnica e na área médica. Volume, velocidade e variedade não são, por si só, considerados suficientes para definir Big Data e esses termos também exigem definição. “Volume”, por exemplo, é entendido de maneira diferente em diferentes contextos. A abordagem 3Vs concentra-se nas características dos dados e não considera o ambiente mais amplo de Big Data.

O termo acabou por ser caracterizado pelo que geralmente é chamado de modelo multi-V. Variedade representa os tipos de dados (estruturados, semi-estruturados, e não-estruturados), Velocidade refere-se à taxa na qual os dados são produzidos e processados ​​e Volume define a quantidade de dados.

Além disso, expandindo o modelo multi-V, Veracidade refere-se a quanto os dados podem ser confiáveis, dada a confiabilidade de sua fonte, enquanto o Valor corresponde ao valor monetário que uma empresa pode obter ao empregar a computação de Big Data. Abaixo, resumimos as definições dos 5V:

Variedade – Tipos de dados

Velocidade – Velocidade de produção e processamento de dados

Volume – Tamanho dos dados

Veracidade – Confiabilidade e confiança nos dados

Valor – Valor derivado da exploração de Big Data

 

Big Data está intrinsecamente vinculado à Cloud Computing; portanto, sua expansão exigirá a adoção de ambientes em nuvem devido aos vários aspectos. Várias discussões sobre privacidade e segurança são abordadas ao se falar sobre o ambiente em nuvem, mas a grande tendência é a adoção desse tipo de solução.  Vamos agora analisar algumas questões sobre esses conceitos !!!

 

Ano: 2018 Banca: INSTITUTO AOCP Órgão: PRODEB Prova: INSTITUTO AOCP – 2018 – PRODEB – Especialista de TIC – B.I

Big Data se refere ao imenso volume de conjuntos de dados que alcançam elevadas ordens de magnitude. O valor real do Big Data está no insight que ele produz quando analisado — buscando padrões, derivando significado, tomando decisões e, por fim, respondendo ao mundo com inteligência. Referente ao Big Data, é correto afirmar que o termo variedade refere-se

A) a um conjunto de dados mais diversos, incluindo dados estruturados, semiestruturados e não estruturados. É heterogêneo e vem em muitos formatos, incluindo texto, documento, imagem, vídeo e outros.

B) a banco de dados homogêneo que trata de informações do mesmo tipo definindo padrões de segurança.

C) a um conjunto de dados que são gerados em tempo real, o que requer a oferta imediata de informações úteis.

D) aos data centers físicos que transformam os dados em informações pertinentes ao negócio.

E) ao controle de dados semiestruturados de formatos definidos como texto e números.

 

Ano: 2018 Banca: FCC Órgão: SEFAZ-SC Prova: FCC – 2018 – SEFAZ-SC – Auditor-Fiscal da Receita Estadual – Tecnologia da Informação (Prova 3)

No âmbito da ciência de dados na definição de Big Data, utilizam-se características ou atributos que alguns pesquisadores adotam como sendo os cinco Vs. Porém, a base necessária para o reconhecimento de Big Data é formada por três propriedades:

A) valor, velocidade e volume.

B) valor, veracidade e volume.

C) variedade, velocidade e volume.

D) variedade, valor e volume.

E) velocidade, veracidade e volume.

 

Ano: 2018 Banca: CESPE / CEBRASPE Órgão: Polícia Federal Prova: CESPE – 2018 – Polícia Federal – Papiloscopista Policial Federal

Julgue o item seguinte, a respeito de big data e tecnologias relacionadas a esse conceito.

De maneira geral, big data não se refere apenas aos dados, mas também às soluções tecnológicas criadas para lidar com dados em volume, variedade e velocidade significativos.

Certo

Errado

 

O gabarito pode ser consultado no final desse artigo.

 

Para Pensar !!!

Um dos problemas para os concurseiros nesse tema é a quantidade de conceitos existentes, no Gran Cursos Online temos diversas aulas para explicar quando se deve dar atenção a cada uma deles, pois as diversas bancas examinadoras cobram esse assunto de diversas maneiras. Em outro artigo aqui no blog ja foi detalhado melhor sobre dados estruturados, não estruturados e semi-estruturados [2]. Dessa forma encerro esse artigo com essa breve introdução sobre o assunto! Até mais !

 

GABARITO

  1. A
  2. C
  3. CERTO

Referências

 

[1] Artigo adaptado do paper – Survey on Trends in Big Data: Data Management, Integration and Cloud Computing Environment, publicado no Softeng 2019 em Valência na Espanha.

[2] Artigo Dados Estruturados e Não-Estruturados

 

Professor MSC, Washington Almeida

 

Doutorando e Mestre em Engenharia de Software pelo Centro de Estudos e Sistemas Avançados do Recife – C.E.S.A.R. Atualmente é Analista Judiciário na Justiça Federal (TRF1), Professor no Gran Cursos Online e na Universidade de Brasília – UNB.

 

Por
4 min. de leitura