Algoritmos de Clusterização Hierárquica – Aprendizado de Máquina para concursos

Bem-vindos ao mundo da clusterização hierárquica, uma técnica poderosa na área de análise de dados e aprendizado de máquina! Se você está se preparando para concursos públicos na área de tecnologia, é importante dominar os conceitos por trás dos algoritmos hierárquicos de clusterização. Vamos explorar esse assunto de forma clara e acessível, para que você esteja pronto para enfrentar qualquer questão sobre o tema nos concursos.

A clusterização hierárquica é uma técnica que agrupa dados semelhantes em clusters, ou grupos, de forma hierárquica. Isso significa que os clusters são organizados em uma estrutura de árvore, em que os clusters menores são combinados para formar clusters maiores.

Dois tipos principais de abordagens são utilizados: aglomerativo (bottom-up) e divisivo (top-down).

No método aglomerativo, começamos com cada ponto sendo um cluster individual e, a cada passo, combinamos os clusters mais próximos até que todos os pontos estejam agrupados em um único cluster.

São exemplos de algoritmos de clusterização hierárquica aglomerativos:

Single Linkage (Ligação Única): Neste algoritmo, a distância entre dois clusters é definida como a menor distância entre quaisquer dois pontos pertencentes a esses clusters. Ele tende a formar clusters alongados, pois está focado em identificar os pontos mais próximos entre clusters.
Ward’s Method (Método de Ward): Neste método, a distância entre dois clusters é definida pela soma dos quadrados das diferenças entre os pontos de um cluster e o centroide do outro cluster. Ele visa minimizar a variância dentro de cada cluster após a fusão.
UPGMA (Unweighted Pair Group Method with Arithmetic Mean): Esse método calcula as médias ponderadas das distâncias entre todos os pares de pontos dos clusters, ponderando pela quantidade de pontos em cada cluster. Ele procura criar uma árvore hierárquica balanceada.

Já no método divisivo, começamos com todos os pontos em um único cluster e, a cada passo, dividimos o cluster em subgrupos menores. Os algoritmos de clusterização hierárquicos divisivos são menos comuns e menos explorados em comparação com os algoritmos aglomerativos, aqui estão alguns exemplos de abordagens divisivas que podem ser usadas:

Top-Down Clustering (TDC): O Top-Down Clustering é uma abordagem que começa com todos os pontos em um único cluster e, em seguida, divide recursivamente esse cluster em subgrupos menores. O critério para divisão pode ser baseado em medidas de dissimilaridade entre os pontos. Essa abordagem é menos utilizada devido à sua complexidade e às dificuldades associadas à escolha dos pontos a serem divididos.
Diana (Divisive Analysis): Diana é um método divisivo que utiliza uma abordagem similar ao algoritmo k-means. Ele começa com todos os pontos em um único cluster e, em seguida, seleciona o ponto mais central como o primeiro centroide. A partir daí, ele divide recursivamente o cluster escolhendo o ponto mais central e redistribuindo os pontos entre os novos clusters.

Os algoritmos hierárquicos de clusterização utilizam métricas de similaridade ou distância para determinar quais pontos devem ser agrupados juntos. Medidas como a distância euclidiana, a distância de Manhattan e a correlação são comumente usadas para calcular a distância entre os pontos.

Um aspecto crucial da clusterização hierárquica é a escolha do critério de ligação, que define como a distância entre os clusters deve ser calculada. Alguns critérios populares incluem a ligação completa (máxima distância entre pontos dos clusters), a ligação única (mínima distância entre pontos dos clusters) e a ligação média (média das distâncias entre pontos dos clusters).

Ao estudar para concursos, é importante estar familiarizado com esses conceitos e entender as vantagens e desvantagens da clusterização hierárquica em comparação com outras técnicas de agrupamento, como o k-means.

Uma das vantagens da clusterização hierárquica é que ela fornece uma visão clara da estrutura hierárquica dos dados. Além disso, não é necessário especificar o número de clusters antecipadamente, o que pode ser uma vantagem em comparação com o k-means.

No entanto, a clusterização hierárquica pode ser computacionalmente intensiva para grandes conjuntos de dados, e os resultados podem ser sensíveis à escolha da métrica de distância e do critério de ligação. Portanto, é importante entender esses aspectos ao aplicar essa técnica em situações reais.

Agora que passamos pela teoria, vamos praticar com questões de concursos:

Prova: CESPE – 2013 – SERPRO – Programador de computador

Julgue os itens que se seguem à luz dos conceitos básicos de datamining e datawarehouse.

Em algoritmos de clusterização hierárquica, os clusters são formados gradativamente por meio de aglomerações ou divisões de elementos, gerando uma hierarquia de clusters.

Gabarito: C

O item em questão está correto. Nos algoritmos de clusterização hierárquica, os clusters são de fato formados gradualmente por meio de aglomerações ou divisões de elementos. Isso resulta em uma hierarquia de clusters, onde os clusters maiores contêm clusters menores, formando uma estrutura em árvore. Portanto, a afirmação apresentada no item está de acordo com os conceitos básicos de clusterização hierárquica.

Prova: CESPE / CEBRASPE – 2022 – ANP – Regulador de Novas Atribuições IV – Cargo 7

Em relação a aprendizado não supervisionado, julgue o item que se segue.

A ação de realizar agrupamento hierárquico tem como premissa básica encontrar elementos em um conjunto de dados que impliquem a presença de outros elementos na mesma transação, com um grau de certeza definido pelos índices de fator de suporte e o fator de confiança, que pode ser realizado, por exemplo, por meio do algoritmo a priori.

Gabarito: E

O item apresentado possui uma mistura de conceitos relacionados a aprendizado não supervisionado e mineração de regras de associação, especificamente ao algoritmo Apriori. Vamos analisar os componentes do item:

“Encontrar elementos em um conjunto de dados que impliquem a presença de outros elementos na mesma transação”: Esse aspecto é mais associado à mineração de regras de associação, onde procuramos identificar padrões frequentes em um conjunto de transações.
“Índices de fator de suporte e fator de confiança”: Esses índices são usados na mineração de regras de associação para quantificar a frequência e a confiabilidade de um padrão.
“Algoritmo a priori”: O algoritmo Apriori é de fato utilizado para a mineração de regras de associação, onde ele identifica conjuntos de itens frequentes e, em seguida, gera regras de associação a partir desses conjuntos.

Portanto, o item apresenta uma combinação confusa de conceitos e termos. A ideia de agrupamento hierárquico não está diretamente relacionada com os conceitos de fator de suporte e confiança, nem com o algoritmo Apriori.

Quer ficar por dentro dos concursos públicos abertos e previstos pelo Brasil?
Clique nos links abaixo:

CONCURSOS ABERTOS

CONCURSOS 2023

Receba gratuitamente no seu celular as principais notícias do mundo dos concursos!
Clique no link abaixo e inscreva-se gratuitamente: