Series e DataFrame do Pandas

Por
Atualizado em
Publicado em
2 min. de leitura

Fala, meus consagrados! Beleza?

O Pandas é uma biblioteca essencial para quem trabalha com análise e manipulação de dados em Python. Ele fornece estruturas de dados poderosas e flexíveis que facilitam o tratamento de informações tabulares e temporais.

O Pandas oferece duas estruturas fundamentais — Series e DataFrame — que transformam o Python em uma linguagem poderosa para análise e manipulação de dados.

  • A Series é ideal para representar vetores ou colunas individuais; e
  • O DataFrame organiza dados tabulares completos, permitindo aplicar filtros, agregações, ordenações e análises estatísticas.

O Pandas foi construído sobre o NumPy, o que significa que suas estruturas utilizam arrays otimizados para operações vetorizadas e matematicamente eficientes.

Essas estruturas adicionam rótulos (índices) e metadados, o que torna a manipulação de dados mais intuitiva do que trabalhar apenas com arrays.

EstruturaDimensãoDescriçãoAnalogia
Series1DUma sequência de dados com índiceColuna de uma planilha
DataFrame2DConjunto de Series alinhadas pelos índicesTabela (linhas e colunas)

Uma Series é uma estrutura unidimensional do Pandas que armazena uma sequência de dados (numéricos, textuais ou booleanos), indexados por rótulos.

Ela é semelhante a um vetor ou coluna, mas com a vantagem de permitir indexação nomeada e operações vetorizadas.

Principais características:

  • Contém dados homogêneos (mesmo tipo de dado);
  • Possui índice (index) para identificar cada elemento;
  • Suporta operações vetorizadas e filtros condicionais;
  • Integra-se naturalmente com arrays do NumPy e objetos do DataFrame.

Exemplo:

import pandas as pd
# Criação de uma Series
notas = pd.Series([8.5, 7.0, 9.2, 6.8], index=['Ana', 'Bruno', 'Carla', 'Daniel'])

# Exibindo a Series
print(notas)

# Acessando por índice
print(notas['Carla'])  # 9.2

# Média das notas
print(notas.mean())    # 7.875

# Filtro condicional
print(notas[notas > 7.5])

Resultado da execução:

Ana	 8.5
Bruno	 7.0
Carla	 9.2
Daniel   6.8
dtype: float64
9.2
7.875
Ana	 8.5
Carla	 9.2
dtype: float64

Essas operações demonstram o poder da Series para análises rápidas e expressivas.

Um DataFrame é uma estrutura bidimensional (linhas × colunas) composta por várias Series que compartilham o mesmo índice.

Ele é a estrutura mais utilizada do Pandas, ideal para representar planilhas, tabelas SQL ou arquivos CSV.

Principais características:

  • Armazena dados heterogêneos (cada coluna pode ter um tipo diferente);
  • Possui índices de linha e de coluna;
  • Permite seleção, filtragem, agregação e junção de dados;
  • Suporta importação e exportação em múltiplos formatos (CSV, Excel, JSON, SQL);
  • Altamente compatível com bibliotecas de visualização e aprendizado de máquina.

Exemplo:

import pandas as pd
# Criação de um DataFrame a partir de um dicionário
dados = {
     'Curso': ['Python', 'Java', 'R', 'Power BI'],
     'Carga Horária': [40, 60, 35, 30],
     'Concluído': [True, True, False, True]
}

df = pd.DataFrame(dados)
print(df)

Resultado da execução:

         Curso      Carga Horária      Concluído
0       Python                 40           True
1         Java                 60           True
2            R                 35          False
3     Power BI                 30           True

Atributos e operações importantes do DataFrame:

  • df.shape:
    • Retorna o número de linhas e colunas;
  • df.columns:
    • Lista o nome das colunas;
  • df.index:
    • Mostra o índice das linhas;
  • df.dtypes:
    • Tipos de dados de cada coluna object, int64, bool;
  • df.info():
    • Exibe resumo do DataFrame; e
  • df.describe():
    • Estatísticas descritivas Média, desvio padrão etc.

Espero que tenham gostado! 

Forte abraço e até a próxima jornada!

_________________________

Professor Rogerão Araújo

Por
Atualizado em
Publicado em
2 min. de leitura