Python Pandas | 泰坦尼克号数据集 | 汇总统计信息

简介

在这个实验中，我们将学习如何使用 Python 的 Pandas 库来计算数据的汇总统计信息。我们将使用泰坦尼克号数据集，其中包含泰坦尼克号沉船事件中乘客的数据。我们将学习如何计算汇总统计信息、聚合统计信息以及按类别统计记录数量。

虚拟机使用提示

虚拟机启动完成后，点击左上角切换到“笔记本”标签页，以访问 Jupyter Notebook 进行练习。

有时，你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制，操作验证无法自动化。

如果你在学习过程中遇到问题，请随时向 Labby 提问。课程结束后提供反馈，我们将立即为你解决问题。

这是一个实验（Guided Lab），提供逐步指导来帮助你学习和实践。请仔细按照说明完成每个步骤，获得实际操作经验。根据历史数据，这是一个初级级别的实验，完成率为 96%。获得了学习者 100% 的好评率。

导入数据集

第一步是导入我们将使用的数据集。

## 导入 pandas 库
import pandas as pd

## 读取数据集
titanic = pd.read_csv("data/titanic.csv")

## 显示数据集的前五行
titanic.head()

计算汇总统计信息

在这一步中，我们将计算泰坦尼克号数据集的汇总统计信息。

## 计算泰坦尼克号乘客的平均年龄
average_age = titanic["Age"].mean()
## 打印结果
print(f"泰坦尼克号乘客的平均年龄是 {average_age}")

## 计算泰坦尼克号乘客的年龄中位数和票价中位数
median_age_fare = titanic[["Age", "Fare"]].median()
## 打印结果
print(f"泰坦尼克号乘客的年龄中位数和票价中位数是 {median_age_fare}")

按类别分组聚合统计信息

接下来，我们将学习如何按类别分组聚合统计信息。

## 计算泰坦尼克号男性和女性乘客的平均年龄
average_age_sex = titanic[["Sex", "Age"]].groupby("Sex").mean()
## 打印结果
print(f"泰坦尼克号男性和女性乘客的平均年龄是 {average_age_sex}")

## 计算每种性别和客舱等级组合的平均票价
mean_fare_sex_class = titanic.groupby(["Sex", "Pclass"])["Fare"].mean()
## 打印结果
print(f"每种性别和客舱等级组合的平均票价是 {mean_fare_sex_class}")

按类别统计记录数量

最后，我们将按类别统计记录数量。

## 统计每个客舱等级的乘客数量
passengers_per_class = titanic["Pclass"].value_counts()
## 打印结果
print(f"每个客舱等级的乘客数量是 {passengers_per_class}")

总结

在这个实验中，我们学习了如何使用 Python 的 Pandas 库来计算汇总统计信息、聚合统计信息以及按类别统计记录数量。我们使用泰坦尼克号数据集来执行这些操作。这些技术是数据分析的基础，并且可以应用于任何数据集。

使用 Pandas 进行泰坦尼克号乘客数据分析

简介

虚拟机使用提示

导入数据集

计算汇总统计信息

按类别分组聚合统计信息

按类别统计记录数量

总结