简介
在这个实验中,我们将学习如何使用 Python 的 Pandas 库来计算数据的汇总统计信息。我们将使用泰坦尼克号数据集,其中包含泰坦尼克号沉船事件中乘客的数据。我们将学习如何计算汇总统计信息、聚合统计信息以及按类别统计记录数量。
虚拟机使用提示
虚拟机启动完成后,点击左上角切换到“笔记本”标签页,以访问 Jupyter Notebook 进行练习。
有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。
如果你在学习过程中遇到问题,请随时向 Labby 提问。课程结束后提供反馈,我们将立即为你解决问题。
这是一个实验(Guided Lab),提供逐步指导来帮助你学习和实践。请仔细按照说明完成每个步骤,获得实际操作经验。根据历史数据,这是一个 初级 级别的实验,完成率为 96%。获得了学习者 100% 的好评率。
导入数据集
第一步是导入我们将使用的数据集。
## 导入 pandas 库
import pandas as pd
## 读取数据集
titanic = pd.read_csv("data/titanic.csv")
## 显示数据集的前五行
titanic.head()
计算汇总统计信息
在这一步中,我们将计算泰坦尼克号数据集的汇总统计信息。
## 计算泰坦尼克号乘客的平均年龄
average_age = titanic["Age"].mean()
## 打印结果
print(f"泰坦尼克号乘客的平均年龄是 {average_age}")
## 计算泰坦尼克号乘客的年龄中位数和票价中位数
median_age_fare = titanic[["Age", "Fare"]].median()
## 打印结果
print(f"泰坦尼克号乘客的年龄中位数和票价中位数是 {median_age_fare}")
按类别分组聚合统计信息
接下来,我们将学习如何按类别分组聚合统计信息。
## 计算泰坦尼克号男性和女性乘客的平均年龄
average_age_sex = titanic[["Sex", "Age"]].groupby("Sex").mean()
## 打印结果
print(f"泰坦尼克号男性和女性乘客的平均年龄是 {average_age_sex}")
## 计算每种性别和客舱等级组合的平均票价
mean_fare_sex_class = titanic.groupby(["Sex", "Pclass"])["Fare"].mean()
## 打印结果
print(f"每种性别和客舱等级组合的平均票价是 {mean_fare_sex_class}")
按类别统计记录数量
最后,我们将按类别统计记录数量。
## 统计每个客舱等级的乘客数量
passengers_per_class = titanic["Pclass"].value_counts()
## 打印结果
print(f"每个客舱等级的乘客数量是 {passengers_per_class}")
总结
在这个实验中,我们学习了如何使用 Python 的 Pandas 库来计算汇总统计信息、聚合统计信息以及按类别统计记录数量。我们使用泰坦尼克号数据集来执行这些操作。这些技术是数据分析的基础,并且可以应用于任何数据集。