Introdução
Neste laboratório, exploraremos o método interpolate() na biblioteca Pandas para Python. O método interpolate() é usado para preencher valores ausentes ou NaN (Not a Number) em um DataFrame usando várias técnicas de interpolação. Interpolação é o processo de estimar os valores ausentes com base nos pontos de dados existentes.
Dicas para a VM
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Importar as bibliotecas necessárias
Vamos começar importando a biblioteca pandas e a biblioteca numpy.
import pandas as pd
import numpy as np
Criar um DataFrame com valores ausentes
Em seguida, vamos criar um DataFrame com alguns valores ausentes.
df = pd.DataFrame([(0.0, np.nan, -1.0, 1.0), (np.nan, 2.0, np.nan, np.nan), (2.0, 3.0, np.nan, 9.0)], columns=list('abcd'))
print(df)
Output:
a b c d
0 0.0 NaN -1.0 1.0
1 NaN 2.0 NaN NaN
2 2.0 3.0 NaN 9.0
Interpolar os valores ausentes usando o método linear
Podemos interpolar os valores ausentes usando o método linear. O método linear assume que os valores no DataFrame são igualmente espaçados.
interpolated_df = df.interpolate(method='linear')
print(interpolated_df)
Output:
a b c d
0 0.0 NaN -1.0 1.0
1 1.0 2.0 -1.0 5.0
2 2.0 3.0 -1.0 9.0
Interpolar os valores ausentes usando o método polinomial
Também podemos interpolar os valores ausentes usando o método polinomial. O método polinomial exige que especifiquemos a ordem da spline ou do polinômio.
interpolated_column = df['a'].interpolate(method='polynomial', order=1)
print(interpolated_column)
Output:
0 0.0
1 1.0
2 2.0
Name: a, dtype: float64
Interpolar os valores ausentes usando o método pad
Outro método para interpolar os valores ausentes é o método 'pad'. O método 'pad' preenche os valores NaN com os valores existentes no DataFrame.
interpolated_df = df.interpolate(method='pad')
print(interpolated_df)
Output:
a b c d
0 0.0 NaN -1.0 1.0
1 0.0 2.0 -1.0 1.0
2 2.0 3.0 -1.0 9.0
Resumo
Neste laboratório, aprendemos como usar o método interpolate() no Pandas para preencher valores ausentes ou NaN em um DataFrame. Exploramos diferentes métodos de interpolação, como linear, polinomial e 'pad'. A interpolação é uma técnica útil para estimar valores ausentes e tornar os dados mais completos para análise.