Mineração de Dados: Agrupamento

Por
1 min. de leitura

Olá pessoal, estou aqui de volta com mais um artigo voltado para o tópico Mineração de Dados.

Agora falando sobre Agrupamentos, vem comigo 😉

A tarefa de agrupamento visa identificar e aproximar os registros similares.

Um agrupamento (ou cluster) é uma coleção de registros similares entre si, porém diferentes dos outros registros nos demais agrupamentos. Esta tarefa difere da classificação pois não necessita que os registros sejam previamente categorizados.

Além disso, ela não tem a pretensão de classificar, estimar ou predizer o valor de uma variável, ela apenas identifica os grupos de dados similares, conforme mostra a figura abaixo:

As técnicas utilizadas no agrupamento são consideradas como não supervisionadas. Dado um conjunto de registros, são gerados agrupamentos (ou cluster), contendo os registros mais semelhantes. Em geral, as medidas de similaridade usadas são as medidas de distâncias tradicionais.

Os elementos de um cluster são considerados similares aos elementos no mesmo cluster e dissimilares (diferentes) aos elementos nos outros clusters.

Por trabalhar com o conceito de distância (similaridade) entre os registros, geralmente é necessário realizar a transformação dos diferentes tipos de dados (ordinais, categóricos, binários, intervalos) para uma escala comum. Vejamos abaixo um exemplo didático de agrupamento.

Neste exemplo podemos observar a formação de 3 agrupamentos (Clusters), onde os dados agrupados em cada grupo guardam características comuns que envolvem a relação entre o rendimento dos indivíduos e o valor de empréstimo pretendido.

Imagine se você tivesse que dividir um grupo de pessoas em dois grupos diferentes, de acordo com as similaridades encontradas.

No primeiro experimento procurou-se separar, da amostra fornecida, pessoas que pertencem à mesma Família e  pessoa que atuam na Escola.

No segundo experimento buscou-se separar a amostra em um grupo de Mulheres e outro de Homens.

Outros e exemplos, seriam:

– Segmentação de mercado para um nicho de produtos;

– Realizar auditoria, separando comportamentos suspeitos;

– Poder reduzir para um conjunto de atributos similares, registros com centenas de atributos.

Vejamos uma questão de concurso sobre este assunto:

[CEBRASPE/CESPE/MINISTÉRIO DA ECONOMIA/TI-CIÊNCIA DE DADOS/2020]

Julgue o seguinte item, a respeito de big data.

A técnica de agregação na mineração de dados atua em conjunto de registros que tenham sido previamente classificados.

A questão tenta enganar você, mas não vai conseguir, vem comigo!

Quando ele traz o termo “agregação” está se referindo ao agrupamento ou clusters, onde é um tipo de tarefa realizada com algumas técnicas, onde o princípio é de uma abordagem não supervisionada, ou seja, não existem dados previamente classificados e nem uma definição de alvo a ser atingido inicialmente, o que torna a questão errada.

Gabarito: Errado

É isso, vou ficando por aqui e até o próximo artigo! 😉

Bons estudos!

========================================

Prof. Luis Octavio Lima

Por
1 min. de leitura