Crear diagramas de caja personalizados en Python

PythonPythonBeginner
Practicar Ahora

This tutorial is from open-source community. Access the source code

💡 Este tutorial está traducido por IA desde la versión en inglés. Para ver la versión original, puedes hacer clic aquí

Introducción

Los diagramas de caja son un tipo de gráfico utilizado para mostrar la distribución de datos basada en el resumen de cinco números ("mínimo", primer cuartil (Q1), mediana, tercer cuartil (Q3) y "máximo"). Se utilizan comúnmente en el análisis de datos para identificar y visualizar valores atípicos, así como para comparar la distribución de diferentes grupos de datos. En este laboratorio, aprenderá a crear y personalizar diagramas de caja en Python utilizando la biblioteca Matplotlib.

Consejos sobre la VM

Una vez finalizada la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.

Importar las bibliotecas necesarias

Antes de comenzar a crear diagramas de caja, necesitamos importar las bibliotecas necesarias, incluyendo NumPy y Matplotlib:

import matplotlib.pyplot as plt
import numpy as np

Generar los datos

A continuación, generaremos algunos datos de muestra para utilizar en nuestros diagramas de caja. Para este tutorial, utilizaremos los siguientes datos:

spread = np.random.rand(50) * 100
center = np.ones(25) * 50
flier_high = np.random.rand(10) * 100 + 100
flier_low = np.random.rand(10) * -100
data = np.concatenate((spread, center, flier_high, flier_low))

Crear un diagrama de caja básico

Podemos crear un diagrama de caja básico utilizando la función boxplot() de Matplotlib. La función boxplot() toma los datos como primer argumento y otros parámetros opcionales para personalizar la gráfica. Aquí está el código para crear un diagrama de caja básico:

plt.boxplot(data)
plt.show()

Personalizar el diagrama de caja

Podemos personalizar el diagrama de caja cambiando la apariencia de la caja, las bigotes y los valores atípicos. También podemos crear múltiples diagramas de caja en la misma gráfica para comparar diferentes grupos de datos. Aquí hay algunos ejemplos de cómo personalizar el diagrama de caja:

## Crear un diagrama de caja con muesca
plt.boxplot(data, notch=True)
plt.show()

## Cambiar los símbolos de los puntos atípicos a diamantes verdes
plt.boxplot(data, flierprops=dict(marker='D', markerfacecolor='g', markersize=8))
plt.show()

## Crear diagramas de caja horizontales
plt.boxplot(data, vert=False)
plt.show()

## Crear múltiples diagramas de caja en una misma gráfica
data1 = np.random.normal(0, 1, 50)
data2 = np.random.normal(1, 1, 50)
data3 = np.random.normal(2, 1, 50)

plt.boxplot([data1, data2, data3])
plt.show()

Añadir etiquetas y títulos

Finalmente, podemos añadir etiquetas y títulos a nuestro diagrama de caja para que sea más informativo. Podemos añadir etiquetas a los ejes x e y, así como un título a la gráfica. También podemos cambiar el tamaño y el estilo de fuente de las etiquetas y el título. Aquí hay un ejemplo de cómo añadir etiquetas y títulos:

plt.boxplot([data1, data2, data3])
plt.xlabel('Group')
plt.ylabel('Value')
plt.title('Comparison of Three Groups')
plt.xticks([1, 2, 3], ['Group 1', 'Group 2', 'Group 3'])
plt.show()

Resumen

En este laboratorio, aprendiste cómo crear y personalizar diagramas de caja en Python utilizando la biblioteca Matplotlib. Aprendiste cómo generar datos de muestra, crear un diagrama de caja básico, personalizar la apariencia del diagrama de caja y agregar etiquetas y títulos a la gráfica. Los diagramas de caja son una herramienta poderosa para visualizar y comparar la distribución de datos, y saber cómo crearlos y personalizarlos es una habilidad importante para analistas y científicos de datos.