Dominando el Método pivot() de DataFrame en Pandas

Introducción

En este laboratorio, aprenderemos cómo utilizar el método pivot() en la biblioteca Pandas de Python. El método pivot() nos permite transformar o reestructurar un DataFrame cambiando la organización de los valores de índice y columna.

Consejos para la MV

Después de que la máquina virtual (MV) haya terminado de iniciar, haz clic en la esquina superior izquierda para cambiar a la pestaña Notebook y acceder a Jupyter Notebook para practicar.

A veces, es posible que debas esperar unos segundos para que Jupyter Notebook termine de cargar. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si encuentras problemas durante el aprendizaje, no dudes en preguntarle a Labby. Proporciona comentarios después de la sesión y resolveremos rápidamente el problema para ti.

Importar pandas y crear el DataFrame

Comienza importando la biblioteca pandas y creando un DataFrame utilizando la función pd.DataFrame().

import pandas as pd

data = {
  'crop': ['Rice', 'Wheat', 'Rice', 'Wheat', 'Rice', 'Wheat'],
  'state': ['karnataka', 'karnataka', 'Tamilnadu', 'Tamilnadu', 'Kerala', 'Kerala'],
  'Temperature': [29, 29, 31, 31, 25, 25],
  'Humidity': [50, 50, 62, 62, 45, 45]
}

df = pd.DataFrame(data)
print(df)

Esto creará un DataFrame con columnas para 'crop' (cultivo), 'state' (estado), 'Temperature' (temperatura) y 'Humidity' (humedad).

Reestructurar el DataFrame utilizando el método pivot()

Para reestructurar el DataFrame, podemos utilizar el método pivot() y especificar los nombres de índice y columna.

df_pivot = df.pivot(index='crop', columns='state')
print(df_pivot)

El método pivot() reorganizará el DataFrame, utilizando 'crop' (cultivo) como el nuevo índice y 'state' (estado) como la nueva columna. El DataFrame resultante tendrá 'Temperature' (temperatura) y 'Humidity' (humedad) como columnas para cada combinación de 'crop' y 'state'.

Especificar el parámetro values para seleccionar columnas específicas

Si solo queremos incluir columnas específicas en el DataFrame reestructurado, podemos utilizar el parámetro values en el método pivot().

df_pivot_specific = df.pivot(index='crop', columns='state', values='Temperature')
print(df_pivot_specific)

El DataFrame resultante solo incluirá la columna 'Temperature' (temperatura) para cada combinación de 'crop' (cultivo) y 'state' (estado).

Manejar duplicados en el DataFrame

Si el DataFrame contiene duplicados, el método pivot() generará un ValueError. En tales casos, debemos asegurarnos de que el DataFrame no tenga entradas duplicadas antes de reestructurarlo.

df_duplicated = pd.DataFrame({'crop': ['Rice', 'Rice', 'Wheat', 'Wheat', 'Rice', 'Wheat'],
                              'state': ['karnataka', 'karnataka', 'Tamilnadu', 'Tamilnadu', 'Kerala', 'Kerala'],
                              'Temperature': [29, 29, 31, 31, 25, 25],
                              'Humidity': [50, 50, 62, 62, 45, 45]})

df_duplicated_pivot = df_duplicated.pivot(index='crop', columns='state', values='Temperature')
print(df_duplicated_pivot)

En este ejemplo, el DataFrame contiene entradas duplicadas para la combinación de 'crop' (cultivo) y 'state' (estado), lo que resultará en un ValueError al utilizar el método pivot().

Resumen

Este laboratorio cubrió el uso básico del método pivot() en la biblioteca Python Pandas. El método pivot() nos permite transformar o reestructurar un DataFrame cambiando la organización de los valores de índice y columna. Aprendimos cómo reestructurar un DataFrame, seleccionar columnas específicas y manejar duplicados. El método pivot() es una herramienta poderosa para la manipulación y análisis de datos.