Pré-processamento de Dados: “onde tudo começa” (Parte 2)

Avatar


5 de Julho de 2022

Olá pessoal, vamos de mais um artigo!

Hoje vou tratar da segunda parte do artigo anterior, que inclusive recomendo a leitura: Pré-processamento de Dados: “onde tudo começa” (Parte 1).

Vem comigo! 😉

Continuando o tópico sobre pré-processamento de dados, vamos agora tratar das demais etapas.

Integração de Dados

Como já comentei antes, é comum obter-se os dados a serem minerados de diversas fontes: banco de dados, arquivos textos, planilhas, data warehouses, vídeos, imagens, entre outras. Surge então, a necessidade da integração destes dados de forma a termos um repositório único e consistente. Para isto, é necessária uma análise aprofundada dos dados observando redundâncias, dependências entre as variáveis e valores conflitantes.

Geralmente, quando os dados são obtidos de diversas fontes, eles não são de mesmo domínio, ou não possuem sua formatação com o mesmo tipo de dado, mesmo que seu significado no mundo real seja o mesmo, ou seja, temos um problema de estrutura a ser adequado. O que motiva, na maioria das vezes o procedimento de integração, é a presença de valores inconsistentes e/ou redundantes.

No caso dos valores inconsistentes , geralmente provocados por discrepância na escrita, como por exemplo, um atributo que descreve a data de assinatura do contrato preenchido por números de dia, mês e ano em uma fonte de dados, sendo que em outra fonte de dados este dado correspondente vem preenchido pela data por extenso. Como solução para os casos de inconsistência, pode ser feita a remoção do registro que possui o valor inconsistente, pode ser feita correção manual e também poder feita pesquisa nos esquemas das diferentes bases de dados, para fins de saber qual o tipo de dado utilizado e estrutura, neste caso criando um script de alteração e atualização dos dados de forma automática.

Já no caso de redundância de dados, geralmente ocorre quando do uso de nomenclaturas diferentes para atributos equivalentes, porém provenientes de diferentes fontes de dados. A prática de armazenar atributos do tipo derivado (cujos valores são calculados a partir de valores em outros atributos) ou a inserção de registros repetidos no conjunto de dados, por consequência de um erro de aquisição de dados. Nesses casos, é interessante realizar a redução do conjunto. Essa redução pode ocorrer tanto de forma horizontal (eliminação de registros) quanto na forma vertical (eliminação de atributos), e pode também ser vista como um procedimento de seleção, se, em vez do procedimento procurar o que deve ser eliminado, ele for preparado para escolher o que é útil à análise realizada. É importante enfatizar que a redução de dados deve manter, no conjunto de dados, a mesma capacidade analítica do conjunto original.

Transformação de Dados

Um fato importante nesta etapa é que alguns algoritmos trabalham apenas com valores numéricos e outros apenas com valores categóricos. Nestes casos, é necessário transformar os valores numéricos em categóricos ou os categóricos em valores numéricos. Não existe um critério único para transformação dos dados e diversas técnicas podem ser usadas de acordo com os objetivos pretendidos.

Algumas das técnicas empregadas nesta etapa são:

  • Suavização: remove valores errados dos dados;
  • Agrupamento: agrupa valores em faixas sumarizadas;
  • Generalização: converte valores muito específicos para valores mais genéricos;
  • Normalização: colocar as variáveis em uma mesma escala;
  • Criar atributos: Gerados a partir de outros já existentes (derivados).

Redução dos Dados

Anteriormente falamos que as fontes de dados envolvidas no processo podem ser variadas e com volumes diversos. Em alguns casos, este volume é tão grande que torna o processo de análise dos dados e da própria mineração impraticável. Nestes casos, as técnicas de redução de dados podem ser aplicadas para que a massa de dados original seja convertida em uma massa de dados menor, porém, sem perder a representatividade dos dados originais. Isto permite que os algoritmos de mineração sejam executados com mais eficiência, mantendo a qualidade do resultado. As estratégias adotadas nesta etapa são:

  • Criação de estruturas otimizadas para os dados (cubos de dados);
  • Seleção de um subconjunto dos atributos;
  • Redução da dimensionalidade;
  • Discretização (geralmente baseada no conceito de entropia, operando geralmente em dados numéricos, estabelecendo valores discretos em variáveis numéricas).

Para construção do modelo de Mineração de Dados, neste contexto de redução, são utilizadas amostras de dados, onde podem ser estabelecidas em 3 conjuntos possíveis:

  • Conjunto de Treinamento (Training Set): conjunto de registros usados no qual o modelo é desenvolvido;
  • Conjunto de Testes (Test Set): conjunto de registros usados para testar o modelo construído;
  • Conjunto de Validação (Validation Set): conjunto de registros usados para validar o modelo construído

É isso, por fim, vamos dar uma olhada em como este assunto já foi cobrado em provas de concursos, vem comigo de novo 😉

[CEBRASPE/CESPE/MINISTÉRIO DA ECONOMIA/TECNOLOGIA DA INFORMAÇÃO-CIÊNCIA DE DADOS/2020]

No que se refere à mineração de dados, julgue o item a seguir.

O objetivo da etapa de pré-processamento é diminuir a quantidade de dados que serão analisados, por meio da aplicação de filtros e de eliminadores de palavras.

Gabarito: Certo

Isso, mesmo, na verdade a diminuição dos dados é uma das etapas do pré-processamento, onde existe a possibilidade de se encontrar inconsistência de dados e redundâncias. Neste caso, ocorrem tratamentos que vão ser feitos para fins de corrigir e reduzir estes dados, podendo se valor de agrupamentos, dados derivados, seleção de dados para criação de conjuntos de dados que viabilizem a execução do modelo de Mineração de Dados.

A questão apresenta o termo “filtro”, que seria a seleção de subconjunto de dados, e no caso do “eliminadores de palavras” seria no caso de limpeza de dados, onde pode se aplicar a técnica de eliminar registros que contenham atributos com ausência de valor, ou redução de dimensões de dados.

 

Bom, vou ficando por aqui pessoal, até o próximo artigo e bons estudos!!!! 🙂

=======================

Prof. Luis Octavio Lima

 

Avatar


5 de Julho de 2022