Método boxplot del DataFrame de Pandas

PythonPythonBeginner
Practicar Ahora

💡 Este tutorial está traducido por IA desde la versión en inglés. Para ver la versión original, puedes hacer clic aquí

Introducción

En este laboratorio, aprenderá a usar el método boxplot() de la biblioteca Pandas para crear diagramas de caja a partir de columnas de DataFrame. Un diagrama de caja, también conocido como diagrama de caja y bigotes, es una representación gráfica que muestra el resumen de cinco números de un conjunto de datos: mínimo, primer cuartil, mediana, tercer cuartil y máximo.

Consejos sobre la VM

Una vez finalizada la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.

Importar las bibliotecas necesarias

Para comenzar, debe importar las bibliotecas necesarias. En este caso, se utilizará la biblioteca Pandas.

import pandas as pd

Crear un DataFrame

A continuación, creará un DataFrame con el que trabajar. Esto se puede hacer pasando un diccionario o una lista de listas a la función pd.DataFrame(). Para este ejemplo, creemos un DataFrame con las notas de los estudiantes en diferentes materias.

df = pd.DataFrame([
    ['Abhishek', 75, 80, 90],
    ['Anurag', 80, 90, 95],
    ['Bavya', 80, 82, 85],
    ['Bavana', 95, 92, 92],
    ['Chetan', 85, 90, 89]
], columns=['Name', 'Maths', 'Science', 'Social'])

Generar un diagrama de caja

Ahora, puede usar el método boxplot() para generar un diagrama de caja a partir de las columnas del DataFrame. Esto se puede hacer pasando los nombres de las columnas como una lista al parámetro column. Por ejemplo, para crear un diagrama de caja para la columna 'Social':

boxplot = df.boxplot(column=['Social'])

El método boxplot() devuelve un objeto Axes, que se puede usar para personalizar aún más la gráfica si se desea.

Personalizar el diagrama de caja

Puede personalizar la apariencia del diagrama de caja utilizando varios parámetros disponibles en el método boxplot(). Por ejemplo, puede ajustar el tamaño de fuente de las etiquetas de los ejes utilizando el parámetro fontsize, rotar las etiquetas utilizando el parámetro rot y mostrar o ocultar la cuadrícula utilizando el parámetro grid.

boxplot = df.boxplot(column=['Social'], fontsize=12, rot=45, grid=True)

Agrupar datos y crear múltiples diagramas de caja

Si desea comparar los datos entre diferentes grupos, puede usar el parámetro by para agrupar los datos en función de una columna específica. Por ejemplo, para crear un diagrama de caja para la columna 'Social' agrupada por la columna 'DOB':

boxplot = df.boxplot(column=['Social'], by='DOB')

Esto generará un diagrama de caja separado para cada valor en la columna 'DOB'.

Resumen

En este laboratorio, aprendiste cómo usar el método boxplot() en la biblioteca Pandas para crear diagramas de caja a partir de las columnas de un DataFrame. Aprendiste cómo personalizar la apariencia del diagrama de caja y cómo agrupar datos para crear múltiples diagramas de caja. Los diagramas de caja son una herramienta de visualización útil para entender la distribución y la variabilidad de los datos. Proporcionan un resumen visual que incluye información como la mediana, los cuartiles y cualquier valor atípico presente en el conjunto de datos. Esto puede ayudar a identificar tendencias, patrones y anomalías en los datos.