Analyse des données des passagers du Titanic avec Pandas

PythonPythonBeginner
Pratiquer maintenant

This tutorial is from open-source community. Access the source code

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

Dans ce laboratoire, nous allons apprendre à utiliser la bibliothèque Pandas de Python pour calculer des statistiques résumées pour les données. Nous utiliserons l'ensemble de données Titanic, qui contient des données sur les passagers du naufrage du Titanic. Nous allons apprendre à calculer des statistiques résumées, des statistiques agrégées et à compter le nombre d'enregistrements par catégorie.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez des commentaires après la session, et nous réglerons rapidement le problème pour vous.

Importation de l'ensemble de données

La première étape consiste à importer l'ensemble de données que nous allons utiliser.

## Importation de la bibliothèque pandas
import pandas as pd

## Lecture de l'ensemble de données
titanic = pd.read_csv("data/titanic.csv")

## Affichage des cinq premières lignes de l'ensemble de données
titanic.head()

Calcul des statistiques résumées

Dans cette étape, nous allons calculer des statistiques résumées pour l'ensemble de données Titanic.

## Calcul de l'âge moyen des passagers du Titanic
average_age = titanic["Age"].mean()
## Affichage du résultat
print(f"L'âge moyen des passagers du Titanic est {average_age}")

## Calcul de l'âge médian et du prix du billet de voyage des passagers du Titanic
median_age_fare = titanic[["Age", "Fare"]].median()
## Affichage du résultat
print(f"L'âge médian et le prix du billet de voyage des passagers du Titanic sont {median_age_fare}")

Agrégation de statistiques par catégorie

Ensuite, nous allons apprendre à aggréger des statistiques groupées par catégorie.

## Calcul de l'âge moyen des passagers masculins et féminins du Titanic
average_age_sex = titanic[["Sex", "Age"]].groupby("Sex").mean()
## Affichage du résultat
print(f"L'âge moyen des passagers masculins et féminins du Titanic est {average_age_sex}")

## Calcul de la moyenne du prix du billet de voyage pour chaque combinaison de sexe et de classe de cabine
mean_fare_sex_class = titanic.groupby(["Sex", "Pclass"])["Fare"].mean()
## Affichage du résultat
print(f"La moyenne du prix du billet de voyage pour chaque combinaison de sexe et de classe de cabine est {mean_fare_sex_class}")

Compte du nombre d'enregistrements par catégorie

Enfin, nous allons compter le nombre d'enregistrements par catégorie.

## Compte du nombre de passagers dans chaque classe de cabine
passengers_per_class = titanic["Pclass"].value_counts()
## Affichage du résultat
print(f"Le nombre de passagers dans chaque classe de cabine est {passengers_per_class}")

Sommaire

Dans ce laboratoire, nous avons appris à calculer des statistiques résumées, à aggréger des statistiques et à compter le nombre d'enregistrements par catégorie à l'aide de la bibliothèque Pandas de Python. Nous avons utilisé l'ensemble de données Titanic pour effectuer ces opérations. Ces techniques sont fondamentales pour l'analyse de données et peuvent être appliquées à tout ensemble de données.