使用 Pandas 进行泰坦尼克号乘客数据分析

PythonPythonBeginner
立即练习

This tutorial is from open-source community. Access the source code

💡 本教程由 AI 辅助翻译自英文原版。如需查看原文,您可以 切换至英文原版

简介

在这个实验中,我们将学习如何使用 Python 的 Pandas 库来计算数据的汇总统计信息。我们将使用泰坦尼克号数据集,其中包含泰坦尼克号沉船事件中乘客的数据。我们将学习如何计算汇总统计信息、聚合统计信息以及按类别统计记录数量。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到“笔记本”标签页,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,请随时向 Labby 提问。课程结束后提供反馈,我们将立即为你解决问题。

导入数据集

第一步是导入我们将使用的数据集。

## 导入pandas库
import pandas as pd

## 读取数据集
titanic = pd.read_csv("data/titanic.csv")

## 显示数据集的前五行
titanic.head()

计算汇总统计信息

在这一步中,我们将计算泰坦尼克号数据集的汇总统计信息。

## 计算泰坦尼克号乘客的平均年龄
average_age = titanic["Age"].mean()
## 打印结果
print(f"泰坦尼克号乘客的平均年龄是 {average_age}")

## 计算泰坦尼克号乘客的年龄中位数和票价中位数
median_age_fare = titanic[["Age", "Fare"]].median()
## 打印结果
print(f"泰坦尼克号乘客的年龄中位数和票价中位数是 {median_age_fare}")

按类别分组聚合统计信息

接下来,我们将学习如何按类别分组聚合统计信息。

## 计算泰坦尼克号男性和女性乘客的平均年龄
average_age_sex = titanic[["Sex", "Age"]].groupby("Sex").mean()
## 打印结果
print(f"泰坦尼克号男性和女性乘客的平均年龄是 {average_age_sex}")

## 计算每种性别和客舱等级组合的平均票价
mean_fare_sex_class = titanic.groupby(["Sex", "Pclass"])["Fare"].mean()
## 打印结果
print(f"每种性别和客舱等级组合的平均票价是 {mean_fare_sex_class}")

按类别统计记录数量

最后,我们将按类别统计记录数量。

## 统计每个客舱等级的乘客数量
passengers_per_class = titanic["Pclass"].value_counts()
## 打印结果
print(f"每个客舱等级的乘客数量是 {passengers_per_class}")

总结

在这个实验中,我们学习了如何使用Python的Pandas库来计算汇总统计信息、聚合统计信息以及按类别统计记录数量。我们使用泰坦尼克号数据集来执行这些操作。这些技术是数据分析的基础,并且可以应用于任何数据集。