Mineração de Dados – conceitos e características

Avatar


7 de Março de 2021

Olá pessoal, tudo joinha?! 🙂

De volta aqui para mais uma artigo e agora trazendo alguns conceitos e características sobre Mineração de Dados (Data Mining) e como este assunto acaba sendo cobrado em algumas provas de concurso. Vem comigo!

A mineração de dados é a técnica de exploração de grandes conjuntos de dados, como objetivo de estabelecer relações, associações e padrões de difícil visualização, fazendo a transformação de dados no seu estado bruto em informação de alto valor.

Podemos, neste contexto, então afirmar que a mineração de dados é o processo de extração de conhecimento de grandes bases de dados, sendo elas convencionais (estruturadas) ou não (semiestruturadas e não estruturadas), onde o seu objetivo é encontrar, automaticamente, padrões, anomalias e regras com o propósito de transformar dados, que são aparentemente ocultos, em informações úteis para a tomada de decisão ou até avaliação de resultados.

Neste contexto, cabe uma reflexão: A mineração de dados é feita de forma manual ou com auxílio de algumas ferramentas, mas que exijam a participação humana em todas as etapas?

Sobre este ponto, podemos afirmar que estas atividades podem ser feitas de forma automática ou semiautomática. Algumas destas formas são executadas,  se valendo do uso do  aprendizado de máquina (Machine Learning), onde diversos algoritmos, combinados com equipamentos de auto poder de armazenamento e processamento ajudam a indicar padrões e construir modelos preditivos. Sobre este assunto, recomento fortemente a leitura do artigo Aprendizado de Máquina-conceitos.

Vejamos o que alguns autores falam a respeito do tema do nosso artigo:

Segundo FAYYAD:

A mineração de dados é a aplicação de algoritmos específicos para extração de padrões a partir dos dados.

Segundo KAMBER e HAN:

A mineração de dados se refere à extração, ou mineração, de conhecimento a partir de grandes quantidades de dados.

Segundo Laudon & Laudon:

O data mining fornece percepções dos dados corporativos que não podem ser obtidas com o OLAP, descobrindo padrões e relacionamentos ocultos em grandes bancos de dados e inferindo regras a partir deles para prever comportamentos futuros. Estes modelos e regras podem então ser utilizados para guiar o processo de decisão e prever o efeito dessas decisões.

Perceba que é comum encontrar em diversos autores as seguintes citações: padrões, grandes bases de dados e prever o futuro. Independente das diferentes técnicas que possam ser utilizadas na mineração de dados, estes elementos estarão quase sempre presentes e recomendo que os internalizem bem em seus estudos, pois são bastante cobrados nas questões de concursos.

É muito comum que o candidato que está se preparando acabe confundindo os conceitos sobre Data Warehouse, OLAP  e Data Mining. Por conta disso, trago abaixo uma lista de definições e comparações que são  muito comuns em provas, vejamos.

  • Data Mining é mais orientado por descobertas;
  • Data Mining fornece percepções dos dados corporativos que não podem ser obtidos com ferramentas OLAP;
  • Data Mining é capaz de descobrir padrões e relacionamentos não perceptíveis, em grandes bases de dados e pode assim inferir regras nestes dados para ajudar a prever comportamentos futuros;
  • Os modelos, regras e padrões podem ser utilizados para guiar um processo de tomada de decisão, mitigando efeitos negativos e prevendo efeitos dessas decisões;
  • Data Mining trabalha com a extração inteligente de dados;
  • Data Warehouse é o repositório centralizado de dados multidimensionais;
  • Data Mining não é uma evolução do Data Warehouse;
  • Data Mining não depende do Data Warehouse, mas é possível obter melhores resultados quando utilizados em conjunto;
  • Data Warehouse quando aliado a ferramentas estatísticas desempenham semelhante papel ao Data Mining, porém não descobrem novos padrões de comportamento. Quando algo do tipo é descoberto, podemos afirmar que foi de forma empírica neste caso;
  • Enquanto Data Warehouse é a memória da organização, o Data Mining é a inteligência da organização;
  • O Data Mining não é totalmente automático, pois faz parte de um processo, agindo de forma iterativa e requer supervisão;
  • Não há garantias de retornos positivos dos investimentos feitos em Data Mining, pois o processo pode sofrer ajustes nos modelos a cada iteração;
  • Os softwares utilizados no processo de Data Mining não garante, de forma intuitiva os resultados, se faz necessário conhecer quais algoritmos estão sendo utilizados, pois eles atendem a casos específicos.
  • Data Mining não garante a identificação de problemas nos negócios ou na organização, apenas indica padrões encontrados ou fenômenos, através dos dados analisados. Quem vai interpretar estes resultados e indicar as decisões a serem tomadas são os especialistas.

Vejamos agora como este assunto é cobrado em questões de concursos, vem comigo!

[CEBRASPE/CESPE/POLÍICA FEDERAL/AGENTE DA POLÍCIA FEDERAL/2018]

Julgue o item que segue, relativo a noções de mineração de dados, big data e aprendizado de máquina.

Pode-se definir mineração de dados como o processo de identificar, em dados, padrões válidos, novos, potencialmente úteis e, ao final, compreensíveis.

Gabarito: Certo.

[CEBRASPE/CESPE/POLÍICA FEDERAL/PERITO CRIMINAL/2018]

Acerca de banco de dados, julgue o seguinte item.

Descobrir conexões escondidas e prever tendências futuras é um dos objetivos da mineração de dados, que utiliza a estatística, a inteligência artificial e os algoritmos de aprendizagem de máquina.

Gabarito: Certo.

Perfeita questão. Sei que muitas vezes até parece repetitivo, mas é assim que se estuda por questões até alcançar um alto nível de acertos, siga essa dica.

O texto da questão apresenta “conexões escondidas”, o que poderia causar dúvidas, a depender da interpretação dada e nisso você precisa ter cuidado.

As conexões são as possíveis correlações encontradas nas amostras de dados, “prever tendências” é fazer uso de técnicas de predição na mineração de dados, e para isso são utilizados os conhecimentos de estatística, inteligência artificial e algoritmos de machine learning, ou seja, é uma atividade multidisciplinar.

É isso aí pessoal, vou ficando por aqui e espero vocês em mais um artigo, abração!

Prof. Luis Octavio Lima

Leitura complementar recomendada: CRISP-DM – conceitos

 

 

Avatar


7 de Março de 2021