Estadísticas Descriptivas con Pandas: Guía para Principiantes

Introducción

Bienvenido al laboratorio sobre Estadística Descriptiva con Pandas. La estadística descriptiva es fundamental para el análisis de datos, ya que proporciona resúmenes sencillos sobre la muestra y las medidas. Con Pandas, una potente biblioteca de manipulación de datos en Python, el cálculo de estas estadísticas es directo y eficiente.

En este laboratorio, aprenderá a:

Calcular la media (promedio) de un conjunto de datos.
Encontrar la mediana (valor central).
Determinar los valores mínimo y máximo.
Generar un resumen completo de estadísticas con un solo comando.
Contar valores únicos en una columna categórica.

Realizará estas operaciones sobre un DataFrame de ejemplo, escribiendo y ejecutando código Python en el WebIDE. ¡Empecemos!

Calcular la media usando el método mean

En este paso, aprenderá a calcular la media (promedio) de una columna numérica en un DataFrame de Pandas. La media es la suma de los valores dividida por el número de valores, y es una de las medidas de tendencia central más comunes.

Pandas proporciona el método .mean(), que se puede llamar en una Serie (una columna de un DataFrame) para calcular su media.

Primero, abra el archivo main.py desde el explorador de archivos en el lado izquierdo del WebIDE. Verá el código inicial que crea nuestro DataFrame de ejemplo.

Agregue el siguiente código al final del archivo main.py para calcular la media de la columna score y mostrarla.

## Calculate the mean of the 'score' column
score_mean = df['score'].mean()
print(f"Mean Score: {score_mean}")

Ahora, ejecutemos el script. Abra una terminal en el WebIDE (Terminal -> New Terminal) y ejecute el siguiente comando:

python3 main.py

Debería ver el DataFrame original, un separador y la media de puntuación calculada.

Original DataFrame:
      name  age  score grade
0    Alice   24     85     B
1      Bob   27     90     A
2  Charlie   22     78     C
3    David   32     95     A
4      Eve   29     88     B

==============================

Mean Score: 87.2

Calcular la mediana con el método median

En este paso, calculará la mediana de una columna numérica. La mediana es el valor central de un conjunto de datos que ha sido ordenado de forma ascendente. A menudo es una mejor medida de tendencia central que la media cuando los datos contienen valores atípicos (outliers).

Pandas facilita esto con el método .median().

Continúe editando el archivo main.py. Agregue las siguientes líneas al final del script para calcular e imprimir la mediana de la columna score.

## Calculate the median of the 'score' column
score_median = df['score'].median()
print(f"Median Score: {score_median}")

Guarde el archivo y ejecute el script nuevamente desde la terminal:

python3 main.py

La salida ahora incluirá tanto la media como la mediana.

Original DataFrame:
      name  age  score grade
0    Alice   24     85     B
1      Bob   27     90     A
2  Charlie   22     78     C
3    David   32     95     A
4      Eve   29     88     B

==============================

Mean Score: 87.2
Median Score: 88.0

Encontrar valores mínimo y máximo

En este paso, encontrará los valores mínimo y máximo en una columna. Estas estadísticas son útiles para comprender el rango y la distribución de sus datos. Pandas proporciona los métodos .min() y .max() para este propósito.

Encontremos las puntuaciones más bajas y más altas en nuestro conjunto de datos. Agregue el siguiente código al final de su script main.py.

## Find the minimum and maximum scores
score_min = df['score'].min()
score_max = df['score'].max()
print(f"Minimum Score: {score_min}")
print(f"Maximum Score: {score_max}")

Guarde el archivo y ejecútelo desde la terminal:

python3 main.py

Su salida ahora mostrará la media, la mediana, la puntuación mínima y la puntuación máxima.

Original DataFrame:
      name  age  score grade
0    Alice   24     85     B
1      Bob   27     90     A
2  Charlie   22     78     C
3    David   32     95     A
4      Eve   29     88     B

==============================

Mean Score: 87.2
Median Score: 88.0
Minimum Score: 78
Maximum Score: 95

Generar estadísticas resumen con describe

En este paso, utilizará el potente método .describe(). Este único método genera un resumen completo de estadísticas descriptivas para todas las columnas numéricas de su DataFrame, incluyendo el recuento (count), la media (mean), la desviación estándar (standard deviation), el mínimo (min), el máximo (max) y los valores de los cuartiles (quartile values).

Esto supone un gran ahorro de tiempo para obtener una visión general rápida de sus datos. Agregue el siguiente código al final de main.py.

## Generate a summary of descriptive statistics
summary_stats = df.describe()
print("Descriptive Statistics Summary:")
print(summary_stats)

Guarde el archivo y ejecute el script:

python3 main.py

Verá una tabla bien formateada que contiene las estadísticas resumen para las columnas age y score.

... (previous output) ...

Descriptive Statistics Summary:
             age      score
count   5.000000   5.000000
mean   26.800000  87.200000
std     4.024922   6.379655
min    22.000000  78.000000
25%    24.000000  85.000000
50%    27.000000  88.000000
75%    29.000000  90.000000
max    32.000000  95.000000

Contar valores únicos con value_counts

En este paso, aprenderá a contar las ocurrencias de valores únicos en una columna, lo cual es particularmente útil para datos categóricos. El método .value_counts() devuelve una Serie que contiene los recuentos de valores únicos.

Contemos cuántos estudiantes recibieron cada calificación. Agregue el siguiente código al final de main.py.

## Count the occurrences of each grade
grade_counts = df['grade'].value_counts()
print("Grade Counts:")
print(grade_counts)

Guarde el archivo y ejecute el script por última vez.

python3 main.py

La salida final incluirá los recuentos de cada calificación única.

... (previous output) ...

Grade Counts:
grade
B    2
A    2
C    1
Name: count, dtype: int64

Esto muestra que las calificaciones 'A' y 'B' aparecen dos veces cada una, y la calificación 'C' aparece una vez.

Resumen

¡Felicitaciones por completar el laboratorio! Ha aprendido con éxito a realizar análisis estadísticos descriptivos fundamentales utilizando la biblioteca Pandas.

En este laboratorio, practicó el uso de varios métodos clave de Pandas:

.mean() para calcular el promedio.
.median() para encontrar el valor central.
.min() y .max() para determinar el rango de los datos.
.describe() para obtener un resumen estadístico rápido y completo.
.value_counts() para contar valores únicos en una columna categórica.

Estas funciones son herramientas esenciales para cualquier analista o científico de datos y forman la base del análisis exploratorio de datos (EDA). Continúe practicando estas habilidades para ser más competente en su viaje de análisis de datos.