Introdução ao Pandas: Resolva questões de concurso de TI

Fala, meus consagrados! Beleza?

O Pandas é uma biblioteca de código aberto escrita em Python voltada para análise, manipulação e limpeza de dados. Criada por Wes McKinney em 2008, tornou-se um dos pilares do ecossistema de ciência de dados, ao lado de bibliotecas como NumPy, Matplotlib e Scikit-learn.

Seu nome vem de Panel Data, um termo usado em econometria para se referir a conjuntos de dados multidimensionais.

Características principais:

Baseado em arrays do NumPy, garantindo alta performance;
Estruturas de dados otimizadas e flexíveis (Series e DataFrame);
Permite importar e exportar dados em múltiplos formatos (CSV, Excel, JSON, SQL, Parquet etc.);
Oferece operações vetorizadas e indexação automática;
Inclui ferramentas para tratamento de dados ausentes, agregações, fusões e pivotagens; e
Amplamente integrado com outras bibliotecas de visualização e machine learning.

Principais funcionalidades:

Leitura e escrita de dados em diversos formatos:
- CSV, Excel, JSON, SQL, Parquet;
Limpeza e transformação de dados:
- Remoção de valores nulos;
- Substituições;
- Renomeação de colunas;
Seleção e filtragem de dados com facilidade;
Operações estatísticas e matemáticas em colunas e linhas;
Outras funções:
- Agrupamento;
- Junções (merge/join);
- Pivot tables;
Integração com bibliotecas como:
- NumPy;
- Matplotlib;
- Scikit-Learn.

O Pandas é utilizado para:

Análise exploratória de dados (EDA);
Limpeza e transformação de dados;
Integração e combinação de datasets;
Cálculos estatísticos e sumarizações; e
Criação de relatórios e dashboards.

Pandas é o ambiente ideal para preparar os dados antes de modelos analíticos ou de machine learning. É uma das ferramentas mais poderosas do ecossistema Python para análise e manipulação de dados.

Exemplo:

import pandas as pd
dados = {
'Curso': ['Python', 'Java', 'R', 'Power BI'],
'Carga Horária': [40, 60, 35, 30],
'Concluído': [True, True, False, True]
}
df = pd.DataFrame(dados)
print(df)

Resultado da execução:

        Curso		Carga horária	Concluído
0	Python	        40		True
1	Java		60		True
2	R		35		False
3	Power BI	30		True

O Pandas se baseia em duas principais estruturas de dados:

Series: estrutura unidimensional (semelhante a um vetor); e
DataFrame: estrutura bidimensional (semelhante a uma tabela).

Ambas herdam funcionalidades do NumPy, com rótulos e eixos nomeados.

Questões de concursos

[FUVEST 2025 USP – Especialista em Laboratório (Especialidade: Informática Biológica)] Na Bioinformática, a manipulação e a análise de grandes volumes de dados exigem ferramentas eficientes e bem estruturadas. No R, pacotes como Bioconductor fornecem funcionalidades específicas para análise de dados ômicos, enquanto o Tidyverse facilita a manipulação de tabelas. No Python, bibliotecas como Pandas e NumPy permitem a manipulação de DataFrames e arrays de forma otimizada, essenciais para explorar e processar conjuntos de dados biológicos. Além disso, a escolha de boas práticas e ferramentas impacta diretamente a eficiência, transparência e reprodutibilidade das análises.

Qual das alternativas a seguir representa corretamente uma vantagem do uso de Pandas e NumPy na manipulação de dados biológicos?

[A] O Pandas permite manipular dados apenas em pequenos conjuntos, tornando-se ineficiente para grandes volumes de informações biológicas.
[B] O Pandas oferece estruturas como DataFrames, permitindo manipular grandes conjuntos de dados biológicos de maneira eficiente, enquanto o NumPy fornece operações vetorizadas para cálculos matemáticos otimizados.
[C] O NumPy substitui completamente o Pandas em todas as análises biológicas, pois sua estrutura de arrays multidimensionais é suficiente para qualquer tipo de manipulação de dados.
[D] O Pandas realiza todas as operações matemáticas automaticamente, dispensando a necessidade de manipular arrays ou aplicar métodos estatísticos adicionais.
[E] O NumPy e o Pandas foram desenvolvidos exclusivamente para aplicações bioinformáticas, não sendo amplamente utilizados em outras áreas da ciência de dados.

Comentários:

A alternativa correta é:

[B] O Pandas oferece estruturas como DataFrames, permitindo manipular grandes conjuntos de dados biológicos de maneira eficiente, enquanto o NumPy fornece operações vetorizadas para cálculos matemáticos otimizados.

Justificativa:

Pandas é amplamente utilizado para organizar, filtrar e transformar dados tabulares, por meio de estruturas como Series e DataFrames. Em bioinformática, isso é essencial para lidar com tabelas de expressão gênica, dados de sequenciamento, anotações e metadados;
NumPy, por sua vez, fornece arrays multidimensionais e operações vetorizadas, que tornam os cálculos matemáticos e estatísticos muito mais rápidos do que os loops convencionais do Python; e
A combinação dessas bibliotecas forma a base do ecossistema de análise de dados científicos em Python, usada não só em bioinformática, mas também em áreas como finanças, engenharia, estatística e aprendizado de máquina.

Análise das incorretas:

[A] Incorreta: o Pandas é eficiente também para grandes volumes de dados, especialmente quando combinado com bibliotecas como Dask ou PyArrow;
[C] Incorreta: o NumPy não substitui o Pandas, pois não tem estrutura de DataFrame nem suporte direto a rótulos e índices;
[D] Incorreta: o Pandas não realiza cálculos automaticamente; é o usuário que aplica as operações desejadas; e
[E] Incorreta: Pandas e NumPy não são exclusivos da bioinformática; são ferramentas genéricas de análise de dados amplamente utilizadas em várias áreas científicas.

Gabarito: letra B.

[CESPE/CEBRASPE 2023 DATAPREV – Analista de Tecnologia da Informação – Perfil: Segurança Cibernética] De acordo com o que dispõem os conceitos de segurança da informação, julgue o item que se segue.

O Pandas é uma das bibliotecas de Python que é utilizada para trabalhar com análise de dados e é utilizada em mineração de dados, por exemplo, por oferecer uma série de funções que permitem a leitura e manipulação de dados.

Comentários:

O Pandas é, de fato, uma das principais bibliotecas do Python voltadas para análise e manipulação de dados.

Ele fornece estruturas eficientes, como Series e DataFrame, e diversas funções para leitura, limpeza, transformação, filtragem e agregação de dados, em formatos como CSV, Excel, JSON, SQL e outros.

Essas funcionalidades tornam o Pandas uma ferramenta amplamente utilizada em mineração de dados, ciência de dados e aprendizado de máquina, permitindo preparar e explorar grandes volumes de informação antes de aplicar modelos analíticos.

Gabarito: CERTO.

Espero que tenham gostado!

Forte abraço e até a próxima jornada!

_________________________

Professor Rogerão Araújo