Já ouviu falar sobre Big Data?

Fala pessoal, estou aqui novamente para mais um artigo. 🙂

Então, você utiliza dispositivos móveis, como celulares ou tablets? E computadores ou notebooks? Fazem compras pela internet? Possuem cadastros em diversos locais no mundo, incluindo portais e sites? Preenchem e submetem muitos formulários na web?

Bem, se sim para algumas destas indagações, saiba que você consta na estatísticas daqueles que contribuem para esse universo de dados existentes e que são coletados, transformados e tratados, para diversas finalidades, seja ela para novas campanhas de marketing ou até mesmo pesquisas científicas, enfim, bem vindo(a) ao mundo do Big Data.

O assunto Big Data vem ganhando espaço tanto na literatura, quanto na sua implementação, seja em organizações privadas como também públicas e por consequência vem sendo cobrado em diversos editais para concursos públicos, uma vez que muitas organizações públicas estão fazendo uso de recursos tecnológicos relacionados à Big Data para diversos fins.

O uso da internet através de dispositivos móveis tem sido um dos maiores geradores de dados não estruturados e de grande valor para às organizações. São dados que surgem, por exemplo, do uso do Facebook, Whatsapp, Telegram, Youtube, Twitter, Instagram, dentre outras mídias sociais que existem na web.

É um mito dizer que o universo de dados que fazem parte do Big Data é composto apenas de dados não estruturados ou semi-estruturados, na verdade, os dados estruturados, que são oriundos de sistemas gerenciadores de banco de dados, arquivos xml, json ou outros tipos de arquivos que possuam dados definidos por título e conteúdo, também fazem parte deste universo. Vejamos o que diz Cezar Taurion sobre o conceito de Big Data.

“Big Data é um conjunto de tecnologias, processos e práticas que permitem às empresas analisarem dados a que antes não tinham acesso e tomar decisões ou mesmo gerenciar atividades de forma muito mais eficiente”.

As tecnologias que sustentam Big Data podem ser analisadas sob duas visões: a primeira está relacionada com as análises de dados de negócio, geralmente em ambientes analíticos, já a segunda tem relação com as tecnologias de infraestrutura que armazenam e processam os petabytes de dados, tendo como destaque os bancos de dados NoSQL. Desta forma, é possível então perceber que o grande volume de dados gerados diariamente excede a capacidade das tecnologias atuais, as quais são geralmente baseadas em banco de dados relacionais.

De forma resumida, estamos falando em grande volume de dados e grande variedade de formatos (estruturados, não estruturados e semiestruturados), porém devemos levar em consideração algo de grande importância, que é a performance, pois estamos falando em alto volume e alta variedade, ou seja, isso irá requerer um alto poder de processamento dos equipamentos envolvidos.

As diversas literaturas, sobre big data, abordam este contexto através dos 5Vs: Volume, Velocidade, Variedade, Veracidade e Valor, chamadas por alguns autores de dimensões do Big Data:

- - Volume: É o primeiro desafio que as organizações enfrentam ao lidar com Big Data. Corresponde à quantidade de dados armazenados, representados através do tamanho e da quantidade de registros/informações que um banco de dados possui. Quanto maior o volume, maiores os esforços na gestão de dados.
  - Velocidade: É o desafio de lidar com o tempo rápido de resposta com que os novos dados são criados e os dados existentes, modificados. Esses dados devem estar disponíveis imediatamente para operações de pesquisa e análise dos dados. Está relacionado com o alto fluxo de entrada de dados, levando em consideração a sua variedade.
  - Variedade: Consiste nas implementações de dados que requererem tratamento de vários formatos e tipos, incluindo dados estruturados e não estruturados. Os bancos de dados devem ser capazes de analisar todos estes tipos de dados e fundi-los para produzir resultados de pesquisa e análise que não poderiam ser alcançados anteriormente.
  - Veracidade: Consiste no grau de incerteza e inconsistência dos dados devido às ambiguidades, à baixa qualidade e a completeza dos dados. Está relacionado com a confiança no dado.
  - Valor: Corresponde ao valor financeiro ou não, que um determinado conjunto de dados fornece à organização. Só fará sentido o investimento em Big Data, se o valor da análise dos dados compensar o custo de sua coleta, armazenamento e processamento.

Até o momento os 5Vs acima são os que frequentemente aparecem descritos em diversas literaturas, porém como trata-se de um assunto muito explorado e difundido no mundo todo, possa ser que surjam dimensões complementares a qualquer momento.

No tocante ao volume e variedade de dados, o que requer que tenhamos também garantia de performance, o que leva a velocidade, vamos conhecer duas formas de escalar recursos computacionais para que possa satisfazer estes três Vs, através do conceito sobre escalabilidade.

Em projetos de Big Data, é crucial um planejamento que permita escalar a plataforma de acordo com a demanda. Também é necessário que essa plataforma ofereça alta disponibilidade, ou seja, que consiga se manter ativa mesmo diante de falhas que venham a ocorrer (e digo com certeza, elas ocorrerão).

Para que este desafio da escalabilidade encontre amparo, existem atualmente duas abordagens muito utilizadas no mercado, são elas: a Escalabilidade Vertical e a Escalabilidade Horizontal:

A Escalabilidade Vertical (Scalling-up) é o termo utilizado para alcançarmos maior performance da nossa aplicação utilizando o melhor e mais rápido hardware. Isso inclui a adição de mais recursos nos equipamentos, tais como: Memória, Processador e Discos.

A escalabilidade vertical também nos permite utilizar a tecnologia de softwares de virtualização, uma vez que esse software fornece mais recursos para os módulos hospedados no SO (Sistema Operacional), esse recurso também pode ser chamado de ampliação, como a expansão de processos. A escalabilidade do aplicativo refere-se ao melhor desempenho das aplicações em execução.

No entanto, não demorará muito para atingir o limite de hardware que pode ser usado no mesmo servidor, não sendo possível mais aumentar o tamanho da RAM ou a quantidade de CPUs infinitamente. Como consequência muitas aplicações precisaram se adaptar à escalabilidade horizontal para se manterem adequadas às necessidades de Big Data.

A Escalabilidade horizontal – (Scalling-out), diferente da vertical, significa adicionar mais recursos para um conjunto de servidores. Adiciona-se mais equipamentos servidores, sem que haja (na maioria das vezes) substituição dos que já existem.

É possível deduzir que a necessidade de mais espaço físico se torna necessário uma vez que mais equipamentos são adquiridos, porém isso nem sempre é verdade, pois muitos destes equipamentos são fisicamente menores se comparados com equipamentos mais antigos. Cada equipamento possui seus recursos de forma independente, porém trabalham de forma compartilhada uns com os outros, executando suas atividades de forma distribuída.

Ao conjunto de número definidos de equipamentos que se comportam de forma distribuída dar-se o nome de “cluster“, sendo este “cluster” incrementado com novos equipamentos quando a demanda por dado e processamento requeira mais recursos.

Bem, vou ficando por aqui, um forte abraço para você e até o próximo artigo ! 😉

=====================================

Prof. Luis Octavio Lima