Mineração de Dados, COVID-19 e Concursos Públicos

Por
3 min. de leitura

Querido Aluno(a),

O assunto de mineração de dados está cada vez mais presente nos concursos públicos. Ele pode ser encontrado em concurso específicos da área de TI e em concursos mais gerais. Por exemplo, em concursos da carreira fiscal e também para cargos na polícia federal.

Hoje em dia, a quantidade de dados e informações é enorme. Por isso, é cada vez mais importante sermos capazes de retirar conhecimento dessas informações. Por exemplo, com a pandemia do COVID-19, diversas pesquisas estão sendo feitas em buscas de uma cura. Além disso, um dos desafios é estimar quantas pessoas já tiveram o vírus, se recuperaram e já possuem imunidade. O teste de todas as pessoas pode ser inviável!  O mundo possui mais de 7 bilhões de pessoas.

Considerando o cenário anterior, a mineração de dados pode ser útil. Por exemplo, um algoritmo poderia varrer as redes sociais (instagram, twitter, facebook, etc) e procurar por posts relacionados aos sintomas do COVID. Ou seja, pessoas reclamando que estão com dor de garganta, tosse seca, falta de ar, etc. O algoritmo poderia inclusive identificar as pessoas que testaram de fato positivo. Com base nisso, o algoritmo poderia tentar rastrear as pessoas que provavelmente moram com os possíveis infectados ou moram com os que tiveram resultado confirmado por um exame. Minerando essas informações o algoritmo é capaz de descobrindo padrões. Esses padrões poderão gerar um conhecimento útil. Esse conhecimento pode ser, por exemplo, a estimativa de quantas pessoas provavelmente tiveram o COVID e não foram detectados por um teste direto.

Com base no exemplo, podemos definir a mineração de dados como a área da ciência da computação que utiliza algoritmos de inteligência artificial para encontrar padrões e gerar conhecimento útil aos seus utilizadores.

Diversas técnicas são usadas na mineração de dados. Conhecer essas técnicas e suas definições é importantíssimo para você que vai fazer uma prova cujo edital cobra data mining (mineração de dados em inglês). As técnicas mais cobradas em provas são:

  • Classificação
  • Clusterização (ou agrupamento)
  • Regras de Associação
  • Padrões Sequenciais
  • Árvores de decisão
  • Padrões dentro de séria temporal

 

Nesse post, vamos entender o que são as regras de associação. Primeiro “bizu” para sua prova é que o termo “regras de associação” pode aparecer na sua prova simplesmente como “associações”. Como nome sugere, uma regra de associação é aquela que faz a associação entre dois registros na sua base de dados. Elas são do tipo SE …. ENTÃO. Se você já estudou raciocínio lógico, já deve ter visto uma expressão similar.

Já sabemos que as regra de associação são do tipo “SE ENTÃO”.  E o que isso quer dizer exatamente? De forma geral, se eu digo SE A ENTÃO B, eu quero dizer que se um dado/evento A existe/ocorre então o B irá também existir/ocorrer.  Por exemplo, SE HÁ NUVENS ESCURAS NO CÉU ENTÃO IRÁ CHOVER.

Ao escrever um algoritmo com regras de associação, as regras podem ser bem mais complexas. Podemos combinar os registros usando operador “E”.  Por exemplo, SE UM COMPUTADOR FOI COMPRADO E PESSOA NÃO COMPROU UM MONITOR ENTÃO COMPRARÁ UM MONITOR NOS PRÓXIMOS DIAS. Lembre-se que essas regras não saem simplesmente da cabeça de um humano e sim com base muitos dados que apontam nesse sentido. Ou seja, o algoritmo de mineração encontra padrões que são descritos em forma de regras.

Esse tipo de técnica é muito poderosa. Ela inclusive é superior a outras técnicas de mineração de dados como a classificação, pois as regras de associação têm capacidade de previsão. Por exemplo, vamos supor que todas as mulheres que estão grávidas após 4 meses compram fraldas (estamos considerando que as mulheres são um pouco ansiosas). Vamos supor que isso tenha sido de fato verificado com base em um grande número de informações. Por exemplo, minerando os laboratórios de exame que possuem as informações sobre os testes de gravidez e os bancos de dados de cartões de crédito que possuem os registros de compras. Com isso, poderíamos ter uma regra do seguinte tipo:

Se é mulher e ficou grávida então comprará fraldas após 4 meses.

Com essa regra, os algoritmos de marketing poderão otimizar as suas propagandas. Ou seja, passarão a mostra no navegador de mulheres que fizeram teste de gravidez links para compra de fraldas e poderão otimizar essa entrega de anúncios para o momento mais provável desta compra.

Note que o nosso exemplo é simples para ser didático. Em casos reais, os algoritmos de mineração de dados podem encontrar regras que estavam implícitas. Ou seja, conhecimento não triviais que dificilmente seriam identificados por uma análise humana. Uma das dificuldades para isso é a velocidade necessária para analisar e correlacionar bases de dados enormes. Esse trabalho pode ser complexo e tedioso para humanos, mas é perfeito para computadores e algoritmos.

Outros dois conceitos importantes para sua prova são os de suporte e acurácia da regra. O suporte é número de instâncias em que a regra se repete. Assim, no nosso exemplo, será o número de instâncias (casos) na nossa base de dados em que uma mulher grávida comprou fraldas após 4 meses da descoberta da gravidez. Já a acurácia, também chamada de confiança, é o valor de instâncias em que mulher grávida comprou fraldas após 4 meses sobre o total de instâncias. Ou seja, é o número de instâncias que a regra prediz corretamente, e é expressa como uma proporção de todas as instâncias em que a regra se aplica.

Por fim, regras de associação não se confundem com padrões sequenciais. Esse tema fica para uma próxima postagem.

Vamos treinar o que vimos com uma questão de concurso.

(CESPE/Técnico/FUB/2018)   Julgue o item a seguir, a respeito de data mining  e OLAP.

No data mining, uma regra de associação relaciona a presença de um conjunto de itens com outra faixa de valores de um outro conjunto de variáveis.

Certo. Com vimos, uma regra de associação é uma implicação da forma: A → B. Os itens do conjunto A estão relacionados com os itens do conjunto B.

Por
3 min. de leitura