Na Parte I, você viu conceitos, finalidades da análise e tipos de dados. Agora a ideia é fechar o “ciclo” que a banca cobra: preparar o dado, explorar corretamente, entender ETL/ELT, reconhecer tarefas típicas de mineração e escolher visualizações coerentes com a pergunta. Em CEBRASPE, o ponto-chave é sempre o mesmo: técnica certa para o objetivo certo, com dados minimamente confiáveis.
Pré-processamento: onde a análise começa de verdade
Antes de qualquer gráfico ou modelo, vem o pré-processamento, que é a etapa responsável por reduzir ruído e evitar conclusões falsas. Os itens de prova costumam citar problemas típicos: duplicidades, registros incompletos, inconsistência entre fontes, categorias com grafias diferentes e datas fora de padrão. O “pacote” básico inclui limpeza (faltantes/duplicados), padronização (formatos e categorias), integração (união de fontes) e transformações (agregações, normalização quando necessário). Se o dado estiver ruim, a conclusão estará ruim — mesmo com uma técnica sofisticada.
EDA (Análise Exploratória): entender antes de afirmar
EDA é a fase de “conhecer o dado”: observar distribuição, valores extremos, comportamento por grupos, correlações e evolução no tempo. Em prova, ela aparece como justificativa para detectar outliers, confirmar hipóteses iniciais e orientar escolhas (variáveis, recortes e visualização). A banca gosta de confundir EDA com “conclusão definitiva”. EDA apoia a investigação; ela não substitui método e validação quando se exige inferência mais forte.
ETL x ELT: diferença prática que vira questão
ETL e ELT são cobrados pelo momento da transformação. No ETL, você extrai, transforma e depois carrega — padrão comum em data warehouses tradicionais, onde se busca levar ao destino um dado já tratado. No ELT, você extrai, carrega e transforma no destino — muito usado em ambientes modernos, com nuvem e grande volume, favorecendo rapidez na ingestão e flexibilidade. A pegadinha é ignorar a governança: ELT pode ser ótimo, mas se não houver controle, o acúmulo de dado “bruto” vira bagunça e atrapalha mais do que ajuda.
Mineração de dados: o trio que mais aparece
Quando a questão fala em mineração, geralmente está apontando para uma destas três tarefas:
Classificação (supervisionada): usa dados rotulados para prever uma classe (ex.: risco alto/médio/baixo; fraude/não fraude; spam/não spam). O ponto de prova é reconhecer “rótulo” e “previsão de classe”.
Regras de associação: busca concorrência e padrões do tipo “se X então Y” (itens frequentemente juntos). Pegadinha comum: confundir associação com “prever valor contínuo”.
Clusterização (não supervisionada): forma grupos por similaridade sem rótulos prévios (segmentação). Aqui o essencial é fixar que não há classes dadas; os grupos emergem do padrão do dado.
Tendência e projeção: cuidado com extrapolação
Quando o enunciado cita tendência, a banca espera leitura adequada de séries temporais: crescimento/queda, sazonalidade, picos e possíveis eventos que expliquem mudanças. Projeção não é “chutar o futuro”: depende de padrão histórico, qualidade dos dados e hipótese clara. Se a assertiva tratar projeção como certeza, desconfie.
Visualização: gráfico certo para pergunta certa
A CEBRASPE cobra visualização tanto por “conceito” quanto por “adequação”. O erro mais comum é escolher o gráfico pelo visual, não pela tarefa.
- Barras: comparar categorias e ranking (ótimo para leitura rápida).
- Linhas: evolução temporal e tendência.
- Histogramas: distribuição de uma variável (concentração e dispersão).
- Box plot: distribuição e outliers (mediana e dispersão).
- Dispersão (scatter): relação entre duas variáveis e padrões de correlação.
Pegadinhas típicas: 3D que distorce leitura, excesso de cores sem propósito e escalas que “forçam” interpretação (especialmente em barras que não começam do zero). Em visualização, clareza e honestidade contam.
Para a prova: o que você precisa reconhecer rápido
Se você aprender a identificar (1) o objetivo da questão, (2) o tipo de dado, (3) a etapa do processo e (4) a técnica adequada, você acerta a maioria dos itens. Em CEBRASPE, não é sobre decorar ferramentas: é sobre entender conceito + aplicação + limitação.
Questões (estilo CEBRASPE – Certo/Errado)
- ( ) No ELT, os dados tendem a ser carregados primeiro no destino e transformados posteriormente, o que pode aumentar flexibilidade, mas exige governança para manter qualidade e rastreabilidade.
- ( ) Clusterização é tipicamente supervisionada, pois depende de classes rotuladas previamente para formação dos grupos.
- ( ) Gráficos de linha são, em geral, mais adequados para representar tendência no tempo, enquanto gráficos de barras são mais adequados para comparar categorias.
Gabarito: 1 C | 2 E | 3 C
Boa prova!
![[Captação] Lançamento Assinatura Ilimitada PRO – Cabeçalho](https://blog-static.infra.grancursosonline.com.br/wp-content/uploads/2026/04/23173839/lancamento-assinatura-pro-cabecalho-captacao.webp)
![[Captação] Lançamento Assinatura PRO – Post](https://blog-static.infra.grancursosonline.com.br/wp-content/uploads/2026/04/23174631/lancamento-assinatura-pro-post-captacao.webp)