Introdução ao Pandas

Entenda o essencial do Pandas, suas funcionalidades e resolva questões de provas

Por
Atualizado em
Publicado em
3 min. de leitura

Fala, meus consagrados! Beleza?

O Pandas é uma biblioteca de código aberto escrita em Python voltada para análise, manipulação e limpeza de dados. Criada por Wes McKinney em 2008, tornou-se um dos pilares do ecossistema de ciência de dados, ao lado de bibliotecas como NumPy, Matplotlib e Scikit-learn.

Seu nome vem de Panel Data, um termo usado em econometria para se referir a conjuntos de dados multidimensionais.

Características principais:

  • Baseado em arrays do NumPy, garantindo alta performance;
  • Estruturas de dados otimizadas e flexíveis (Series e DataFrame);
  • Permite importar e exportar dados em múltiplos formatos (CSV, Excel, JSON, SQL, Parquet etc.);
  • Oferece operações vetorizadas e indexação automática;
  • Inclui ferramentas para tratamento de dados ausentes, agregações, fusões e pivotagens; e
  • Amplamente integrado com outras bibliotecas de visualização e machine learning.

Principais funcionalidades:

  • Leitura e escrita de dados em diversos formatos:
    • CSV, Excel, JSON, SQL, Parquet;
  • Limpeza e transformação de dados:
    • Remoção de valores nulos;
    • Substituições;
    • Renomeação de colunas;
  • Seleção e filtragem de dados com facilidade;
  • Operações estatísticas e matemáticas em colunas e linhas;
  • Outras funções:
    • Agrupamento;
    • Junções (merge/join);
    • Pivot tables;
  • Integração com bibliotecas como:
    • NumPy;
    • Matplotlib;
    • Scikit-Learn.

O Pandas é utilizado para:

  • Análise exploratória de dados (EDA);
  • Limpeza e transformação de dados;
  • Integração e combinação de datasets;
  • Cálculos estatísticos e sumarizações; e
  • Criação de relatórios e dashboards.

Pandas é o ambiente ideal para preparar os dados antes de modelos analíticos ou de machine learning. É uma das ferramentas mais poderosas do ecossistema Python para análise e manipulação de dados.

Exemplo:

import pandas as pd
dados = {
'Curso': ['Python', 'Java', 'R', 'Power BI'],
'Carga Horária': [40, 60, 35, 30],
'Concluído': [True, True, False, True]
}
df = pd.DataFrame(dados)
print(df)

Resultado da execução:

        Curso		Carga horária	Concluído
0	Python	        40		True
1	Java		60		True
2	R		35		False
3	Power BI	30		True

O Pandas se baseia em duas principais estruturas de dados:

  • Series: estrutura unidimensional (semelhante a um vetor); e
  • DataFrame: estrutura bidimensional (semelhante a uma tabela).

Ambas herdam funcionalidades do NumPy, com rótulos e eixos nomeados.

Questões de concursos

[FUVEST 2025 USP – Especialista em Laboratório (Especialidade: Informática Biológica)] Na Bioinformática, a manipulação e a análise de grandes volumes de dados exigem ferramentas eficientes e bem estruturadas. No R, pacotes como Bioconductor fornecem funcionalidades específicas para análise de dados ômicos, enquanto o Tidyverse facilita a manipulação de tabelas. No Python, bibliotecas como Pandas e NumPy permitem a manipulação de DataFrames e arrays de forma otimizada, essenciais para explorar e processar conjuntos de dados biológicos. Além disso, a escolha de boas práticas e ferramentas impacta diretamente a eficiência, transparência e reprodutibilidade das análises.

Qual das alternativas a seguir representa corretamente uma vantagem do uso de Pandas e NumPy na manipulação de dados biológicos?

  • [A] O Pandas permite manipular dados apenas em pequenos conjuntos, tornando-se ineficiente para grandes volumes de informações biológicas.
  • [B] O Pandas oferece estruturas como DataFrames, permitindo manipular grandes conjuntos de dados biológicos de maneira eficiente, enquanto o NumPy fornece operações vetorizadas para cálculos matemáticos otimizados.
  • [C] O NumPy substitui completamente o Pandas em todas as análises biológicas, pois sua estrutura de arrays multidimensionais é suficiente para qualquer tipo de manipulação de dados. 
  • [D] O Pandas realiza todas as operações matemáticas automaticamente, dispensando a necessidade de manipular arrays ou aplicar métodos estatísticos adicionais. 
  • [E] O NumPy e o Pandas foram desenvolvidos exclusivamente para aplicações bioinformáticas, não sendo amplamente utilizados em outras áreas da ciência de dados.

Comentários:

A alternativa correta é:

  • [B] O Pandas oferece estruturas como DataFrames, permitindo manipular grandes conjuntos de dados biológicos de maneira eficiente, enquanto o NumPy fornece operações vetorizadas para cálculos matemáticos otimizados.

Justificativa:

  • Pandas é amplamente utilizado para organizar, filtrar e transformar dados tabulares, por meio de estruturas como Series e DataFrames. Em bioinformática, isso é essencial para lidar com tabelas de expressão gênica, dados de sequenciamento, anotações e metadados;
  • NumPy, por sua vez, fornece arrays multidimensionais e operações vetorizadas, que tornam os cálculos matemáticos e estatísticos muito mais rápidos do que os loops convencionais do Python; e
  • A combinação dessas bibliotecas forma a base do ecossistema de análise de dados científicos em Python, usada não só em bioinformática, mas também em áreas como finanças, engenharia, estatística e aprendizado de máquina.

Análise das incorretas:

  • [A] Incorreta: o Pandas é eficiente também para grandes volumes de dados, especialmente quando combinado com bibliotecas como Dask ou PyArrow;
  • [C] Incorreta: o NumPy não substitui o Pandas, pois não tem estrutura de DataFrame nem suporte direto a rótulos e índices;
  • [D] Incorreta: o Pandas não realiza cálculos automaticamente; é o usuário que aplica as operações desejadas; e
  • [E] Incorreta: Pandas e NumPy não são exclusivos da bioinformática; são ferramentas genéricas de análise de dados amplamente utilizadas em várias áreas científicas.

Gabarito: letra B.

[CESPE/CEBRASPE 2023 DATAPREV – Analista de Tecnologia da Informação – Perfil: Segurança Cibernética] De acordo com o que dispõem os conceitos de segurança da informação, julgue o item que se segue.

O Pandas é uma das bibliotecas de Python que é utilizada para trabalhar com análise de dados e é utilizada em mineração de dados, por exemplo, por oferecer uma série de funções que permitem a leitura e manipulação de dados.

Comentários:

O Pandas é, de fato, uma das principais bibliotecas do Python voltadas para análise e manipulação de dados.

Ele fornece estruturas eficientes, como Series e DataFrame, e diversas funções para leitura, limpeza, transformação, filtragem e agregação de dados, em formatos como CSV, Excel, JSON, SQL e outros.

Essas funcionalidades tornam o Pandas uma ferramenta amplamente utilizada em mineração de dados, ciência de dados e aprendizado de máquina, permitindo preparar e explorar grandes volumes de informação antes de aplicar modelos analíticos.

Gabarito: CERTO.

Espero que tenham gostado! 

Forte abraço e até a próxima jornada!

_________________________

Professor Rogerão Araújo

Por
Atualizado em
Publicado em
3 min. de leitura