Análise de Dados para a Câmara (CEBRASPE) – Parte II: ETL/ELT, mineração e visualização sem pegadinha

Por
Publicado em
2 min. de leitura

Na Parte I, você viu conceitos, finalidades da análise e tipos de dados. Agora a ideia é fechar o “ciclo” que a banca cobra: preparar o dado, explorar corretamente, entender ETL/ELT, reconhecer tarefas típicas de mineração e escolher visualizações coerentes com a pergunta. Em CEBRASPE, o ponto-chave é sempre o mesmo: técnica certa para o objetivo certo, com dados minimamente confiáveis.

Pré-processamento: onde a análise começa de verdade

Antes de qualquer gráfico ou modelo, vem o pré-processamento, que é a etapa responsável por reduzir ruído e evitar conclusões falsas. Os itens de prova costumam citar problemas típicos: duplicidades, registros incompletos, inconsistência entre fontes, categorias com grafias diferentes e datas fora de padrão. O “pacote” básico inclui limpeza (faltantes/duplicados), padronização (formatos e categorias), integração (união de fontes) e transformações (agregações, normalização quando necessário). Se o dado estiver ruim, a conclusão estará ruim — mesmo com uma técnica sofisticada.

EDA (Análise Exploratória): entender antes de afirmar

EDA é a fase de “conhecer o dado”: observar distribuição, valores extremos, comportamento por grupos, correlações e evolução no tempo. Em prova, ela aparece como justificativa para detectar outliers, confirmar hipóteses iniciais e orientar escolhas (variáveis, recortes e visualização). A banca gosta de confundir EDA com “conclusão definitiva”. EDA apoia a investigação; ela não substitui método e validação quando se exige inferência mais forte.

ETL x ELT: diferença prática que vira questão

ETL e ELT são cobrados pelo momento da transformação. No ETL, você extrai, transforma e depois carrega — padrão comum em data warehouses tradicionais, onde se busca levar ao destino um dado já tratado. No ELT, você extrai, carrega e transforma no destino — muito usado em ambientes modernos, com nuvem e grande volume, favorecendo rapidez na ingestão e flexibilidade. A pegadinha é ignorar a governança: ELT pode ser ótimo, mas se não houver controle, o acúmulo de dado “bruto” vira bagunça e atrapalha mais do que ajuda.

Mineração de dados: o trio que mais aparece

Quando a questão fala em mineração, geralmente está apontando para uma destas três tarefas:

Classificação (supervisionada): usa dados rotulados para prever uma classe (ex.: risco alto/médio/baixo; fraude/não fraude; spam/não spam). O ponto de prova é reconhecer “rótulo” e “previsão de classe”.

Regras de associação: busca concorrência e padrões do tipo “se X então Y” (itens frequentemente juntos). Pegadinha comum: confundir associação com “prever valor contínuo”.

Clusterização (não supervisionada): forma grupos por similaridade sem rótulos prévios (segmentação). Aqui o essencial é fixar que não há classes dadas; os grupos emergem do padrão do dado.

Tendência e projeção: cuidado com extrapolação

Quando o enunciado cita tendência, a banca espera leitura adequada de séries temporais: crescimento/queda, sazonalidade, picos e possíveis eventos que expliquem mudanças. Projeção não é “chutar o futuro”: depende de padrão histórico, qualidade dos dados e hipótese clara. Se a assertiva tratar projeção como certeza, desconfie.

Visualização: gráfico certo para pergunta certa

A CEBRASPE cobra visualização tanto por “conceito” quanto por “adequação”. O erro mais comum é escolher o gráfico pelo visual, não pela tarefa.

  • Barras: comparar categorias e ranking (ótimo para leitura rápida).
  • Linhas: evolução temporal e tendência.
  • Histogramas: distribuição de uma variável (concentração e dispersão).
  • Box plot: distribuição e outliers (mediana e dispersão).
  • Dispersão (scatter): relação entre duas variáveis e padrões de correlação.

Pegadinhas típicas: 3D que distorce leitura, excesso de cores sem propósito e escalas que “forçam” interpretação (especialmente em barras que não começam do zero). Em visualização, clareza e honestidade contam.


Para a prova: o que você precisa reconhecer rápido

Se você aprender a identificar (1) o objetivo da questão, (2) o tipo de dado, (3) a etapa do processo e (4) a técnica adequada, você acerta a maioria dos itens. Em CEBRASPE, não é sobre decorar ferramentas: é sobre entender conceito + aplicação + limitação.


Questões (estilo CEBRASPE – Certo/Errado)

  1. ( ) No ELT, os dados tendem a ser carregados primeiro no destino e transformados posteriormente, o que pode aumentar flexibilidade, mas exige governança para manter qualidade e rastreabilidade.
  2. ( ) Clusterização é tipicamente supervisionada, pois depende de classes rotuladas previamente para formação dos grupos.
  3. ( ) Gráficos de linha são, em geral, mais adequados para representar tendência no tempo, enquanto gráficos de barras são mais adequados para comparar categorias.

Gabarito: 1 C | 2 E | 3 C

Boa prova!

Por
Publicado em
2 min. de leitura