Introducción
En este laboratorio, aprenderemos cómo utilizar el método pivot() en la biblioteca Pandas de Python. El método pivot() nos permite transformar o reestructurar un DataFrame cambiando la organización de los valores de índice y columna.
Consejos para la MV
Después de que la máquina virtual (MV) haya terminado de iniciar, haz clic en la esquina superior izquierda para cambiar a la pestaña Notebook y acceder a Jupyter Notebook para practicar.
A veces, es posible que debas esperar unos segundos para que Jupyter Notebook termine de cargar. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.
Si encuentras problemas durante el aprendizaje, no dudes en preguntarle a Labby. Proporciona comentarios después de la sesión y resolveremos rápidamente el problema para ti.
Importar pandas y crear el DataFrame
- Comienza importando la biblioteca pandas y creando un DataFrame utilizando la función
pd.DataFrame().
import pandas as pd
data = {
'crop': ['Rice', 'Wheat', 'Rice', 'Wheat', 'Rice', 'Wheat'],
'state': ['karnataka', 'karnataka', 'Tamilnadu', 'Tamilnadu', 'Kerala', 'Kerala'],
'Temperature': [29, 29, 31, 31, 25, 25],
'Humidity': [50, 50, 62, 62, 45, 45]
}
df = pd.DataFrame(data)
print(df)
- Esto creará un DataFrame con columnas para 'crop' (cultivo), 'state' (estado), 'Temperature' (temperatura) y 'Humidity' (humedad).
Reestructurar el DataFrame utilizando el método pivot()
- Para reestructurar el DataFrame, podemos utilizar el método
pivot()y especificar los nombres de índice y columna.
df_pivot = df.pivot(index='crop', columns='state')
print(df_pivot)
- El método
pivot()reorganizará el DataFrame, utilizando 'crop' (cultivo) como el nuevo índice y 'state' (estado) como la nueva columna. El DataFrame resultante tendrá 'Temperature' (temperatura) y 'Humidity' (humedad) como columnas para cada combinación de 'crop' y 'state'.
Especificar el parámetro values para seleccionar columnas específicas
- Si solo queremos incluir columnas específicas en el DataFrame reestructurado, podemos utilizar el parámetro
valuesen el métodopivot().
df_pivot_specific = df.pivot(index='crop', columns='state', values='Temperature')
print(df_pivot_specific)
- El DataFrame resultante solo incluirá la columna 'Temperature' (temperatura) para cada combinación de 'crop' (cultivo) y 'state' (estado).
Manejar duplicados en el DataFrame
- Si el DataFrame contiene duplicados, el método
pivot()generará unValueError. En tales casos, debemos asegurarnos de que el DataFrame no tenga entradas duplicadas antes de reestructurarlo.
df_duplicated = pd.DataFrame({'crop': ['Rice', 'Rice', 'Wheat', 'Wheat', 'Rice', 'Wheat'],
'state': ['karnataka', 'karnataka', 'Tamilnadu', 'Tamilnadu', 'Kerala', 'Kerala'],
'Temperature': [29, 29, 31, 31, 25, 25],
'Humidity': [50, 50, 62, 62, 45, 45]})
df_duplicated_pivot = df_duplicated.pivot(index='crop', columns='state', values='Temperature')
print(df_duplicated_pivot)
- En este ejemplo, el DataFrame contiene entradas duplicadas para la combinación de 'crop' (cultivo) y 'state' (estado), lo que resultará en un
ValueErroral utilizar el métodopivot().
Resumen
Este laboratorio cubrió el uso básico del método pivot() en la biblioteca Python Pandas. El método pivot() nos permite transformar o reestructurar un DataFrame cambiando la organización de los valores de índice y columna. Aprendimos cómo reestructurar un DataFrame, seleccionar columnas específicas y manejar duplicados. El método pivot() es una herramienta poderosa para la manipulación y análisis de datos.