Python Pandas | Conjunto de datos del Titanic | Estadísticas resumidas

Introducción

En este laboratorio, aprenderemos a usar la biblioteca Pandas de Python para calcular estadísticas resumidas de datos. Usaremos el conjunto de datos del Titanic, que contiene datos sobre los pasajeros del naufragio del Titanic. Aprenderemos a calcular estadísticas resumidas, estadísticas agregadas y a contar el número de registros por categoría.

Consejos sobre la VM

Una vez que se haya completado la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje comentarios después de la sesión y resolveremos rápidamente el problema para usted.

Este es un Guided Lab, que proporciona instrucciones paso a paso para ayudarte a aprender y practicar. Sigue las instrucciones cuidadosamente para completar cada paso y obtener experiencia práctica. Los datos históricos muestran que este es un laboratorio de nivel principiante con una tasa de finalización del 96%. Ha recibido una tasa de reseñas positivas del 100% por parte de los estudiantes.

Importando el conjunto de datos

El primer paso es importar el conjunto de datos que usaremos.

## Importando la biblioteca pandas
import pandas as pd

## Leyendo el conjunto de datos
titanic = pd.read_csv("data/titanic.csv")

## Mostrando las primeras cinco filas del conjunto de datos
titanic.head()

Calculando estadísticas resumidas

En este paso, calcularemos estadísticas resumidas para el conjunto de datos del Titanic.

## Calculando la edad promedio de los pasajeros del Titanic
average_age = titanic["Age"].mean()
## Imprimiendo el resultado
print(f"La edad promedio de los pasajeros del Titanic es {average_age}")

## Calculando la edad mediana y el precio de la tarifa del billete de los pasajeros del Titanic
median_age_fare = titanic[["Age", "Fare"]].median()
## Imprimiendo el resultado
print(f"La edad mediana y el precio de la tarifa del billete de los pasajeros del Titanic son {median_age_fare}")

Agregando estadísticas agrupadas por categoría

A continuación, aprenderemos a agregar estadísticas agrupadas por categoría.

## Calculando la edad promedio de los pasajeros del Titanic masculinos y femeninos
average_age_sex = titanic[["Sex", "Age"]].groupby("Sex").mean()
## Imprimiendo el resultado
print(f"La edad promedio de los pasajeros del Titanic masculinos y femeninos es {average_age_sex}")

## Calculando el precio promedio de la tarifa del billete para cada combinación de sexo y clase de camarote
mean_fare_sex_class = titanic.groupby(["Sex", "Pclass"])["Fare"].mean()
## Imprimiendo el resultado
print(f"El precio promedio de la tarifa del billete para cada combinación de sexo y clase de camarote es {mean_fare_sex_class}")

Contando el número de registros por categoría

Finalmente, contaremos el número de registros por categoría.

## Contando el número de pasajeros en cada clase de camarote
passengers_per_class = titanic["Pclass"].value_counts()
## Imprimiendo el resultado
print(f"El número de pasajeros en cada clase de camarote es {passengers_per_class}")

Resumen

En este laboratorio, aprendimos cómo calcular estadísticas resumidas, agregar estadísticas y contar el número de registros por categoría utilizando la biblioteca Pandas de Python. Utilizamos el conjunto de datos del Titanic para realizar estas operaciones. Estas técnicas son fundamentales para el análisis de datos y se pueden aplicar a cualquier conjunto de datos.

Análisis de datos de pasajeros del Titanic con Pandas