Método Interpolate do DataFrame Pandas

Beginner

Introdução

Neste laboratório, exploraremos o método interpolate() na biblioteca Pandas para Python. O método interpolate() é usado para preencher valores ausentes ou NaN (Not a Number) em um DataFrame usando várias técnicas de interpolação. Interpolação é o processo de estimar os valores ausentes com base nos pontos de dados existentes.

Dicas para a VM

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.

Importar as bibliotecas necessárias

Vamos começar importando a biblioteca pandas e a biblioteca numpy.

import pandas as pd
import numpy as np

Criar um DataFrame com valores ausentes

Em seguida, vamos criar um DataFrame com alguns valores ausentes.

df = pd.DataFrame([(0.0, np.nan, -1.0, 1.0), (np.nan, 2.0, np.nan, np.nan), (2.0, 3.0, np.nan, 9.0)], columns=list('abcd'))
print(df)

Output:

     a    b    c    d
0  0.0  NaN -1.0  1.0
1  NaN  2.0  NaN  NaN
2  2.0  3.0  NaN  9.0

Interpolar os valores ausentes usando o método linear

Podemos interpolar os valores ausentes usando o método linear. O método linear assume que os valores no DataFrame são igualmente espaçados.

interpolated_df = df.interpolate(method='linear')
print(interpolated_df)

Output:

     a    b    c    d
0  0.0  NaN -1.0  1.0
1  1.0  2.0 -1.0  5.0
2  2.0  3.0 -1.0  9.0

Interpolar os valores ausentes usando o método polinomial

Também podemos interpolar os valores ausentes usando o método polinomial. O método polinomial exige que especifiquemos a ordem da spline ou do polinômio.

interpolated_column = df['a'].interpolate(method='polynomial', order=1)
print(interpolated_column)

Output:

0    0.0
1    1.0
2    2.0
Name: a, dtype: float64

Interpolar os valores ausentes usando o método pad

Outro método para interpolar os valores ausentes é o método 'pad'. O método 'pad' preenche os valores NaN com os valores existentes no DataFrame.

interpolated_df = df.interpolate(method='pad')
print(interpolated_df)

Output:

     a    b    c    d
0  0.0  NaN -1.0  1.0
1  0.0  2.0 -1.0  1.0
2  2.0  3.0 -1.0  9.0

Resumo

Neste laboratório, aprendemos como usar o método interpolate() no Pandas para preencher valores ausentes ou NaN em um DataFrame. Exploramos diferentes métodos de interpolação, como linear, polinomial e 'pad'. A interpolação é uma técnica útil para estimar valores ausentes e tornar os dados mais completos para análise.