Introdução
Neste laboratório, apresentaremos os fundamentos do pandas, uma poderosa biblioteca de manipulação de dados em Python. Vamos guiá-lo por várias tarefas, como importar pandas, criar e visualizar dados, seleção de dados, operações e muito mais.
Dicas para a VM
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido às limitações do Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Importando Pandas e Numpy
Primeiramente, precisamos importar os pacotes pandas e numpy. Pandas é uma poderosa biblioteca de manipulação de dados e numpy é usado para operações matemáticas.
## Importing necessary libraries
import numpy as np
import pandas as pd
Criando Objetos
Criaremos uma Series passando uma lista de valores, e o pandas criará um índice inteiro padrão.
## Creating a pandas series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s
Criando Dataframes
Podemos criar um DataFrame passando um array numpy, com um índice de data e hora e colunas rotuladas.
## Creating a pandas dataframe
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df
Visualizando Dados
Podemos visualizar as linhas superiores e inferiores do dataframe usando os métodos head() e tail() respectivamente.
## Viewing top rows
df.head()
## Viewing bottom rows
df.tail(3)
Seleção de Dados
Podemos selecionar dados usando rótulos ou por posição.
## Selecting a single column
df["A"]
## Selecting via position
df.iloc[3]
Operações com Dados
Podemos realizar operações em dataframes, como ordenação, aplicação de funções, etc.
## Sorting by an axis
df.sort_index(axis=1, ascending=False)
## Applying a function to the data
df.apply(np.cumsum)
Tratamento de Dados Ausentes
O Pandas fornece métodos para lidar com dados ausentes no dataframe.
## Filling missing data
df.fillna(value=5)
## Getting the boolean mask where values are nan
pd.isna(df)
Plotagem de Dados
O Pandas utiliza o matplotlib para plotar dados.
## Plotting data
df.plot()
Salvando e Carregando Dados
O Pandas fornece métodos para salvar e carregar dados em vários formatos, como csv, excel, hdf5, etc.
## Saving data to a csv file
df.to_csv("foo.csv")
## Loading data from a csv file
pd.read_csv("foo.csv")
Resumo
Neste laboratório, cobrimos os fundamentos do pandas, incluindo como criar e visualizar dados, como selecionar e manipular dados e como salvar e carregar dados. Também aprendemos como lidar com dados ausentes e como plotar dados. Isso deve fornecer uma base sólida para uma exploração mais aprofundada do pandas para análise de dados.