A banca CESPE/CEBRASPE segue exigindo conhecimentos sólidos sobre Inteligência Artificial (IA), Machine Learning (ML), Big Data e suas aplicações. Este segundo artigo da série traz 12 questões comentadas das provas mais recentes, abordando conceitos fundamentais como regressão, overfitting, underfitting, árvores de decisão e matrizes de confusão. Cada questão é analisada em detalhes, com explicações que ajudarão você a consolidar o conteúdo necessário para enfrentar a prova com confiança.
A regressão é uma técnica de aprendizado supervisionado usada para prever valores contínuos, como a estimativa de preços ou demanda futura. Seu objetivo é identificar a relação entre variáveis dependentes e independentes, utilizando modelos como regressão linear e polinomial. Essa técnica é amplamente aplicada em problemas de previsão e análise quantitativa.
Durante o treinamento de modelos, dois problemas comuns são o overfitting e o underfitting. O overfitting ocorre quando o modelo aprende excessivamente os dados de treinamento, incluindo ruídos, e perde a capacidade de generalizar para novos dados. Já o underfitting ocorre quando o modelo não consegue capturar os padrões dos dados, apresentando desempenho ruim em todas as fases. Soluções incluem regularização, ajuste de parâmetros e aumento do volume de dados.
As árvores de decisão são algoritmos interpretáveis usados tanto para classificação quanto regressão, estruturando decisões com base em divisões sequenciais dos dados.
Para avaliar modelos de classificação, utiliza-se a matriz de confusão, que organiza os acertos e erros do modelo em categorias como verdadeiros positivos e falsos negativos. Métricas derivadas da matriz, como acurácia e precisão, ajudam a medir a qualidade do modelo, tornando esses conceitos fundamentais para o sucesso em Machine Learning.
Questões Comentadas
1. Prova: CTI – Tecnologista Pleno 2 – Indústria 4.0 e Governo Digital (Sistemas
Enunciado:
A regressão é um tipo de aprendizado não supervisionado cujo objetivo é entender a relação entre variáveis dependentes.
Gabarito: Errado
Comentário:
A regressão é uma técnica de aprendizado supervisionado, usada para prever valores contínuos com base em variáveis independentes. Aprendizado não supervisionado não utiliza rótulos.
2. Prova: CTI – Tecnologista Pleno 2 – Indústria 4.0 e Governo Digital (Sistemas Ciberfísicos e Cidades Inteligentes)
A modelagem preditiva é a mais profunda para a estimativa de resultados desconhecidos e inclui técnicas de amostra como árvores de decisão, redes neurais, análise de regressão e classificação.
Gabarito: Certo
Comentário:
A modelagem preditiva utiliza técnicas como árvores de decisão, redes neurais e regressão para prever resultados desconhecidos, sendo essencial em aprendizado supervisionado.
3. Prova: SEPLAG-CE – Analista de Gestão Pública (Ciência da Computação)
Nas técnicas de classificação e clusterização de dados, as classes, ou categorias, devem existir previamente à sua aplicação.
Gabarito: Errado
Comentário:
Na classificação (aprendizado supervisionado), as classes são predefinidas. Já na clusterização (não supervisionado), as classes não existem previamente, sendo identificadas pelo algoritmo.
4. Prova: ANTT – Especialista em Regulação de Transportes Terrestres
Ocorre sobreajuste quando um modelo de dados é incapaz de capturar o relacionamento entre as variáveis de entrada e saída com precisão, o que gera uma alta taxa de erro tanto no conjunto de treinamento quanto nos dados não exibidos.
Gabarito: Errado
Comentário:
A descrição corresponde a underfitting. O sobreajuste (overfitting) ocorre quando o modelo se ajusta demais aos dados de treinamento, perdendo a capacidade de generalização.
5. Prova: ANA – Especialista em Regulação de Recursos Hídricos
O problema de underfitting ocorre quando o modelo não se ajusta aos dados de treinamento, enquanto o overfitting ocorre quando o modelo não se ajusta a novos dados.
Gabarito: Certo
Comentário:
Underfitting ocorre quando o modelo não aprende os padrões dos dados. Overfitting é o ajuste excessivo aos dados de treinamento, falhando com novos dados.
6. Prova: CTI – Tecnologista Pleno 2 – Indústria 4.0 e Governo Digital
Em aprendizado de máquina, um modelo de bom desempenho com dados já treinados, mas que não lide muito bem com novos dados é denominado subajuste, ou seja, no subajuste se aprende com base no ruído dos dados.
Gabarito: Errado
Comentário:
A descrição está incorreta. O problema descrito é o overfitting. No subajuste (underfitting), o modelo não aprende os padrões nem dos dados de treinamento.
7. Prova: CTI – Tecnologista Pleno 2 – Indústria 4.0 e Governo Digital
Ocorre sobreajuste quando o modelo não pode determinar uma relação significativa entre os dados de entrada e saída, ou seja, quando o modelo não é treinado pelo período apropriado em relação à quantidade de dados.
Gabarito: Errado
Comentário:
O enunciado descreve o problema de underfitting. No sobreajuste (overfitting), o modelo aprende demais os dados de treinamento, incluindo ruídos.
8. Prova: CTI – Tecnologista Pleno 2 – Indústria 4.0 e Governo Digital
Overfitting é um comportamento esperado e desejável de aprendizado de máquina, uma vez que descreve assertividade e acurácia altas quando o modelo de aprendizado de máquina fornece previsões precisas para novos dados com base nos dados de treinamento.
Gabarito: Errado
Comentário:
O overfitting não é desejável. Embora apresente alta precisão nos dados de treino, ele compromete a generalização do modelo para novos dados.
9. Prova: ANATEL – Especialista em Regulação de Serviços Públicos de Telecomunicações
Em Big Data, ruídos consistem em informações extras que acabam deturpando as análises, enquanto overfitting designa a interpretação equivocada dos ruídos como dados legítimos.
Gabarito: Certo
Comentário:
Ruídos são dados irrelevantes que distorcem análises. Overfitting ocorre quando o modelo interpreta esses ruídos como padrões significativos.
10. Prova: ANATEL – Especialista em Regulação de Serviços Públicos de Telecomunicações
A matriz de confusão, em problemas de classificação multiclasses, é uma tabela com duas linhas e duas colunas; na diagonal principal dessa matriz quadrada, estão os valores corretos e, na matriz secundária, os erros cometidos pelo modelo.
Gabarito: Errado
Comentário:
Em classificação multiclasses, a matriz de confusão pode ter mais que duas linhas e colunas, dependendo do número de classes. A descrição é válida apenas para problemas binários.
11. Prova: CTI – Tecnologista Pleno 2 – Tecnologias Habilitadoras
Os algoritmos baseados em árvore de decisão definem modelos com uma técnica para estimar a probabilidade de um evento ocorrer sob determinada circunstância, usando-se uma estimativa a priori da probabilidade de sua ocorrência.
Gabarito: Errado
Comentário:
Os algoritmos de árvore de decisão não utilizam estimativas a priori de probabilidade, como é o caso dos classificadores bayesianos. Em vez disso, as árvores de decisão funcionam através da divisão recursiva dos dados, com base em critérios de entropia, ganho de informação ou impureza Gini, para encontrar os melhores pontos de corte e construir uma estrutura hierárquica de decisões.
12. Prova: CTI – Tecnologista Pleno 2 – Tecnologias Habilitadoras
A técnica da árvore de decisão utiliza, entre outras, a abordagem de predição, na qual grupos diferentes são identificados de acordo com características em comum.
Gabarito: Certo
Comentário:
As árvores de decisão realizam tanto predição (valores contínuos) quanto classificação (categorias), identificando grupos com características comuns.
Compreender os conceitos de regressão, overfitting, underfitting e técnicas como árvores de decisão é fundamental para o sucesso em provas do CESPE/CEBRASPE. A análise criteriosa das questões recentes ajuda a consolidar o conhecimento, esclarecer os principais erros conceituais e preparar o candidato para os desafios da área de Inteligência Artificial e Ciência de Dados.
Quer ficar por dentro dos concursos públicos abertos e previstos pelo Brasil? Clique nos links abaixo:
Receba gratuitamente no seu celular as principais notícias do mundo dos concursos. Clique no link abaixo e inscreva-se:
Participe da conversa