Árvore de Decisão: Conceitos

Por
3 min. de leitura

Fala pessoal, estou de volta com mais um artigo! 🙂

No artigo de hoje trago uma das técnicas aplicadas na Mineração de Dados, a Árvore de Decisão.

Vem comigo! 😉

O método de classificação utilizando Árvore de Decisão, é executado de forma parecida com um fluxograma em forma de árvore, onde cada nó (não folha) indica um teste feito em um determinado valor. A ligação entre os nós representam valores possíveis do teste do nó superior, e as folhas indicam a classe (categoria) a qual o registro pertence. Como as folhas já são definidas, podemos considerar a Árvore de Decisão um método Supervisionado, baseado em separabilidade (entropia).

Com a árvore montada, basta seguir o fluxo para novos registros serem classificados, obedecendo aos testes de cada nó não-folha, a partir do nó raiz até chegar no nó folha. Veja abaixo um exemplo de árvore de decisão para definir a classificação do tipo de prato, de acordo com temperatura e tipo de refeição.

Segue abaixo mais um exemplo de árvore de decisão, neste caso indicar o risco para fins de liberar a utilização de cartão de crédito.

Neste ponto, já é possível perceber como se dá a aplicação da árvore de decisão como um modelo de classificação supervisionada. A partir do recebimento de um exemplar de teste, a árvore de decisão deve ser percorrida da raiz até uma de suas folhas. A cada nó interno, o atributo descritivo associado deve ser verificado no exemplar de teste, e, dependendo do valor de tal atributo, uma das subárvores do nó será escolhida. Então, o processo se repete até que o nó folha, com o rótulo atribuído ao exemplar de teste, seja alcançado.

Existem algumas técnicas empregadas na utilização de Árvore de Decisão que faço questão de abordar aqui e que costumeiramente são cobradas em questões de concursos, para isso, trago algumas definições dadas pelo autor Carlos Barbieri, vejamos:

  • Segmentação: É a identificação de grupos baseada na identificação de características em comum apresentadas pelos elementos. Ex: segmentação de mercado, dividindo-se a base de clientes de uma empresa de acordo com o perfil de uso de seus produtos.
  • Estratificação: Determinação de regras para que se possa designar cada caso a uma dentre várias categorias existentes, como, por exemplo, classificar um cliente tomador de crédito em grupo de risco elevado, risco médio, risco baixo.
  • Predição: Criação de regras para aplicação em eventos futuros. Por exemplo, se identificarmos os sintomas que geralmente representam determinado diagnóstico, os futuros pacientes que apresentarem o mesmo quadro serão encaminhados para fazer exames específicos daquela doença. A predição também pode ser utilizada na tentativa de identificar relações entre atributos preditivos e valores de uma variável contínua. Por exemplo: a identificação de quais ações de marketing estão levando a aumento significativo nas vendas.
  • Redução de dados e filtro de variáveis: Quando se tem demasiadas variáveis em um processo, pode-se utilizar técnicas de árvore de decisão para identificar quais têm mais influência sobre a resposta, diminuindo assim o volume de variáveis em estudo.
  • Identificação de Interações: Identificação de interações pertinentes somente a determinados subgrupos e especificação delas em modelos paramétricos formais.
  • Combinação de categorias e discretização de variáveis contínuas: Significa a possibilidade de recodificação de variáveis categóricas e contínuas com perda mínima de informação. Ex: no estudo de câncer de pulmão, em que se coletou o número de cigarros fumados pelos pacientes por dia, as quantidades de cigarro que levarem a uma probabilidade similar de aparecimento do câncer podem guiar o pesquisador sobre como agrupar esses números como 1 a 4, de 5 a 10, etc.

Vejamos alguns exemplos de questões onde este assunto foi abordado:

[CEBRASPE/CESPE/FUNPRESP-JUD/ANALISTA EM TI/2016]

Julgue o item subsecutivo, referente às tecnologias de bancos de dados.

Em DataMining, as árvores de decisão podem ser usadas com sistemas de classificação para atribuir informação de tipo.

Gabarito: Certo

Comentário:

Uma das aplicações da Árvore de Decisão é na tarefa de classificação, onde é montada uma estrutura similar a de uma árvore, onde os nós não folha impõem condições para decidir qual o próximo estágio dos nós seguintes, sendo o nó folha o de classificação.

[CEBRASPE/CESPE/MINISTÉRIO DA ECONOMIA/TECNOLOGIA DA INFORMAÇÃO-CIÊNCIA DE DADOS/2020]

No que se refere à mineração de dados, julgue o item a seguir.

Estratificação é a abordagem da técnica de árvore de decisão que determina as regras para direcionar cada caso a uma categoria já existente.

Gabarito: Certo

Comentário:

Sim, na verdade, é uma das várias abordagens ou técnicas, aplicadas em Árvore de Decisão e tem por objetivo a determinação de regras para que se possa designar cada caso a uma dentre várias categorias existentes.

 

Bem, é isso, vou ficando por aqui e aguardo vocês no próximo artigo!

Forte abraço e bons estudos! 😉

=====================================

Prof. Luis Octavio Lima

Por
3 min. de leitura