Método de interpolación en DataFrame de Pandas

PandasPandasBeginner
Practicar Ahora

💡 Este tutorial está traducido por IA desde la versión en inglés. Para ver la versión original, puedes hacer clic aquí

Introducción

En este laboratorio, exploraremos el método interpolate() en la biblioteca Pandas para Python. El método interpolate() se utiliza para llenar valores faltantes o NaN (Not a Number) en un DataFrame utilizando varias técnicas de interpolación. La interpolación es el proceso de estimar los valores faltantes basados en los puntos de datos existentes.

Consejos sobre la VM

Una vez que se haya completado la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de operaciones no puede automatizarse debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.

Importar las bibliotecas necesarias

Comencemos importando la biblioteca pandas y la biblioteca numpy.

import pandas as pd
import numpy as np

Crear un DataFrame con valores faltantes

A continuación, creemos un DataFrame con algunos valores faltantes.

df = pd.DataFrame([(0.0, np.nan, -1.0, 1.0), (np.nan, 2.0, np.nan, np.nan), (2.0, 3.0, np.nan, 9.0)], columns=list('abcd'))
print(df)

Salida:

     a    b    c    d
0  0.0  NaN -1.0  1.0
1  NaN  2.0  NaN  NaN
2  2.0  3.0  NaN  9.0

Interpolar los valores faltantes utilizando el método lineal

Podemos interpolar los valores faltantes utilizando el método lineal. El método lineal asume que los valores en el DataFrame están equidistantes.

interpolated_df = df.interpolate(method='linear')
print(interpolated_df)

Salida:

     a    b    c    d
0  0.0  NaN -1.0  1.0
1  1.0  2.0 -1.0  5.0
2  2.0  3.0 -1.0  9.0

Interpolar los valores faltantes utilizando el método polinomial

También podemos interpolar los valores faltantes utilizando el método polinomial. El método polinomial requiere que especifiquemos el orden del spline o polinomio.

interpolated_column = df['a'].interpolate(method='polynomial', order=1)
print(interpolated_column)

Salida:

0    0.0
1    1.0
2    2.0
Name: a, dtype: float64

Interpolar los valores faltantes utilizando el método de relleno (pad)

Otro método para interpolar los valores faltantes es el método de relleno (pad). El método de relleno (pad) llena los valores NaN con los valores existentes en el DataFrame.

interpolated_df = df.interpolate(method='pad')
print(interpolated_df)

Salida:

     a    b    c    d
0  0.0  NaN -1.0  1.0
1  0.0  2.0 -1.0  1.0
2  2.0  3.0 -1.0  9.0

Resumen

En este laboratorio, aprendimos cómo utilizar el método interpolate() en Pandas para llenar valores faltantes o NaN en un DataFrame. Exploramos diferentes métodos de interpolación, como lineal, polinomial y de relleno (pad). La interpolación es una técnica útil para estimar valores faltantes y hacer que los datos sean más completos para su análisis.