Termos e conceituações importantes em Aprendizado de Máquina e Técnicas de Classificação

Vamos conhecer neste artigo os termos e conceituações importantes em Aprendizado de Máquina.

Avatar


30 de Junho de 2023

Olá, querido (a) aluno(a)!

Vamos conhecer neste artigo os termos e conceituações importantes em Aprendizado de Máquina.

Overfitting (sobreajuste): O overfitting ocorre quando um modelo se ajusta excessivamente aos dados de treinamento, capturando padrões irrelevantes ou ruído nos dados. Como resultado, o modelo se torna muito específico para os dados de treinamento e tem um desempenho ruim em dados não vistos. Isso pode levar a uma baixa capacidade de generalização do modelo.

Underfitting (subajuste): O underfitting ocorre quando um modelo não consegue capturar adequadamente as relações e padrões nos dados de treinamento. O modelo geralmente é muito simples ou não é treinado por tempo suficiente, resultando em um desempenho insatisfatório tanto nos dados de treinamento quanto nos dados não vistos. O underfitting geralmente ocorre quando o modelo é muito limitado para representar a complexidade dos dados.

Conjunto de treinamento (training set): É o conjunto de dados usado para treinar o modelo de aprendizado de máquina. Consiste em pares de entrada e saída, onde o modelo aprende a mapear as entradas para as saídas corretas.

Conjunto de teste (test set): É o conjunto de dados usado para avaliar o desempenho do modelo após o treinamento. Ele contém pares de entrada e saída que não foram usados durante o treinamento. O conjunto de teste fornece uma estimativa do desempenho do modelo em dados não vistos.

Conjunto de validação (validation set): É um conjunto de dados separado do conjunto de treinamento e do conjunto de teste. É usado para ajustar os hiperparâmetros do modelo e tomar decisões durante o treinamento, como selecionar a melhor arquitetura do modelo ou parar o treinamento com base na melhoria da performance.

Hiperparâmetros (hyperparameters): São parâmetros que definem a arquitetura do modelo ou o processo de treinamento. Diferentemente dos parâmetros do modelo, que são aprendidos durante o treinamento, os hiperparâmetros são definidos antes do treinamento e afetam a forma como o modelo aprende e generaliza. Exemplos de hiperparâmetros incluem o número de camadas e neurônios em uma rede neural, a taxa de aprendizado e o número de iterações de treinamento.

 

Técnicas de Classificação

1 Árvores de Decisão

As árvores de decisão são estruturas em formato de árvore que representam decisões e possíveis resultados com base em condições e atributos.

As árvores de decisão dividem o conjunto de dados em diferentes caminhos, utilizando atributos como critérios de divisão, até chegar a uma decisão ou resultado.

Fonte: https://didatica.tech/como-funciona-o-algoritmo-arvore-de-decisao/

A estratificação é uma etapa crucial na construção de uma árvore de decisão e é conhecida como o processo de divisão da árvore.

Na árvore de decisão, a estratificação ocorre quando um nó é dividido em dois ou mais subnós, dependendo do valor de um atributo de entrada. A decisão sobre qual atributo escolher para realizar a divisão é geralmente baseada em medidas como Ganho de Informação, Índice Gini ou Redução de Variância.

Por exemplo, suponha que você tenha um conjunto de dados sobre frutas, com atributos como “cor” (verde, vermelho, amarelo), “peso” e “textura” (macia, dura), e o rótulo que estamos tentando prever é o tipo de fruta (maçã, banana, uva). A estratificação poderia ocorrer da seguinte maneira:

– O nó raiz divide o conjunto de dados com base na “cor”. Frutas verdes vão para um ramo, vermelhas para outro, e amarelas para outro.

– Em seguida, cada um desses ramos pode ser dividido novamente. Por exemplo, o ramo “verde” pode ser dividido em “peso”, com frutas mais leves indo para um sub-ramo e frutas mais pesadas indo para outro.

Este processo continua até que uma condição de parada seja alcançada. Por exemplo, se todos os exemplos em um subconjunto têm a mesma classe, ou se o conjunto de dados no nó se tornou muito pequeno.

É importante mencionar que a divisão incorreta ou excessiva dos nós pode levar ao overfitting, onde o modelo aprende demais os detalhes e o ruído no conjunto de treinamento, ao ponto de apresentar um desempenho ruim ao prever novos dados. Portanto, técnicas como a poda da árvore podem ser usadas para melhorar o poder de generalização do modelo.

Exemplo

Imagine que você deseja decidir se deve ou não fazer uma viagem. A árvore de decisão pode começar com o atributo “previsão do tempo”. Se a previsão for “ensolarado”, a árvore segue por um caminho, se for “chuvoso”, segue por outro. Cada caminho leva a uma decisão final, como “fazer a viagem” ou “não fazer a viagem”.

Vantagens 

Fácil interpretação e compreensão das regras geradas pela árvore: As árvores de decisão podem ser visualizadas graficamente, o que as torna fácil de entender mesmo para pessoas sem conhecimento técnico. Cada caminho da raiz até a folha da árvore representa uma regra de decisão. Por exemplo, se tivermos um modelo para prever se uma pessoa irá comprar um carro ou não com base na idade e na renda, uma regra da árvore de decisão pode ser: “Se a idade é maior que 30 e a renda é superior a $50k, então a pessoa comprará um carro”.

Lida bem com dados numéricos e categóricos: As árvores de decisão podem lidar com variáveis de diferentes tipos. Isso é útil porque muitos conjuntos de dados do mundo real contêm uma mistura de tipos de variáveis.

Não requer muita preparação dos dados: As árvores de decisão não exigem normalização dos dados e podem lidar com lacunas e valores ausentes.

Desvantagens

Pode ser suscetível a overfitting: Isso significa que o modelo pode ter um desempenho ruim ao prever dados novos ou não vistos. Por exemplo, uma árvore de decisão que é treinada para distinguir gatos e cães e usa cada pequeno detalhe nas imagens pode ter um desempenho ruim ao classificar novas imagens porque está muito adaptada ao conjunto de treinamento.

Pode gerar árvores complexas e difíceis de interpretar em conjuntos de dados grandes: Com muitas variáveis e valores possíveis, a árvore de decisão pode crescer rapidamente e tornar-se muito complexa. Isso não apenas aumenta o risco de overfitting, mas também torna a árvore difícil de interpretar. Por exemplo, se tivermos um conjunto de dados com centenas de variáveis, a árvore de decisão resultante pode ter muitos ramos e folhas e tornar-se difícil de visualizar e entender.

Exemplo 

Classificação de e-mails como spam ou não spam com base em atributos como palavras-chave, remetente e conteúdo.

Vamos ver como essa teoria já foi cobrada em questão de concurso?

  1. (Ano: 2022 Banca: CESPE / CEBRASPE Órgão: TCE-RJ)

Em um modelo para um aprendizado supervisionado dos dados no formato de uma árvore de decisão, um algoritmo de construção da árvore busca minimizar a informação necessária para classificar os dados nas partições da árvore.

Gabarito: Certo. Em um modelo para um aprendizado supervisionado dos dados no formato de uma árvore de decisão, um algoritmo de construção da árvore busca minimizar a informação necessária para classificar os dados nas partições da árvore.

 

  1. (Inédita/2023)

No contexto de aprendizado supervisionado, uma árvore de decisão utiliza a métrica de entropia para determinar a melhor divisão dos dados em cada nó da árvore. Entropia, nesse caso, é um indicador da impureza de um nó, ou seja, quão misturados estão os rótulos das classes nesse nó. Portanto, um algoritmo de construção de árvore de decisão busca minimizar a entropia em cada divisão para maximizar a eficiência da classificação.

Gabarito: Certo. Em aprendizado de máquina supervisionado, uma árvore de decisão é um modelo preditivo que aprende a partir de dados de entrada (características) para prever um resultado (rótulo). O algoritmo de construção da árvore busca criar uma árvore que possa classificar os dados da maneira mais eficiente possível, dividindo os dados em várias partições, ou “nós”, com base nas características.

A ideia é minimizar a quantidade de informação (ou, em termos de teoria da informação, a “entropia”) necessária para fazer uma previsão. Isso é feito selecionando as características que dividem os dados da maneira mais “pura” possível a cada passo. Em outras palavras, o algoritmo procura pelas características que melhor dividem os dados em grupos onde a maioria dos exemplos compartilha o mesmo rótulo.

 

  1. (Ano: 2018 Banca: CS-UFG Órgão: UFG) 

Uma das ferramentas que auxilia no processo de tomada de decisão é a árvore de decisão. Ela se caracteriza por

A) ser uma técnica que permite a visualização gráfica das possibilidades ou alternativas de decisões.

B) gerar uma tabela ilustrativa das várias possibilidades de decisões e seus respectivos resultados.

C) idealizar uma matriz que compara várias alternativas com atribuições de pesos para diferentes critérios de decisões.

D) analisar prós e contras, vantagens e desvantagens sobre diferentes tomadas de decisões.

Gabarito: A. Uma árvore de decisão é uma representação gráfica de possíveis soluções para uma decisão com base em certas condições. Ela é estruturada em um formato de árvore, com cada nó representando uma decisão ou um evento, e cada ramo representando uma possível solução ou resultado. Essa representação permite uma visualização clara e intuitiva das alternativas de decisões e seus possíveis resultados.

B) As árvores de decisão não geram uma tabela ilustrativa, mas sim um diagrama que se assemelha a uma árvore, o que a distingue das tabelas. Portanto, a opção B está incorreta.

C) A afirmação descreve mais de perto um método de tomada de decisão como a análise de decisão multicritério, que envolve a atribuição de pesos a diferentes critérios. Portanto, a opção C está incorreta.

D) Embora a árvore de decisão possa ajudar a analisar prós e contras de diferentes tomadas de decisões, a declaração não captura a essência da árvore de decisão como uma estrutura gráfica que representa decisões e seus possíveis resultados. Portanto, a opção D também está incorreta.

 

Então é isso! 

Bons estudos e até o nosso próximo artigo.

 

Prof. Jósis Alves

Analista de TI no Supremo Tribunal Federal

 


Quer ficar por dentro dos concursos públicos abertos e previstos pelo Brasil?
Clique nos links abaixo:

CONCURSOS ABERTOS

CONCURSOS 2023

Receba gratuitamente no seu celular as principais notícias do mundo dos concursos!
Clique no link abaixo e inscreva-se gratuitamente:

TELEGRAM

Avatar


30 de Junho de 2023