简介
Pandas 是由 Python 开发的强大数据处理工具。由于其灵活性和易用性,它常用于数据分析和清理。在本实验中,我们将学习如何使用 Pandas 执行基本操作,如加载数据、创建数据框、访问数据以及进行简单统计。
虚拟机使用提示
虚拟机启动完成后,点击左上角切换到“笔记本”标签页,以访问 Jupyter Notebook 进行练习。
有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。
如果你在学习过程中遇到问题,随时向 Labby 提问。课程结束后提供反馈,我们会及时为你解决问题。
这是一个实验(Guided Lab),提供逐步指导来帮助你学习和实践。请仔细按照说明完成每个步骤,获得实际操作经验。根据历史数据,这是一个 初级 级别的实验,完成率为 86%。获得了学习者 100% 的好评率。
导入 Pandas 包
在使用 Pandas 之前,你需要先导入它。通常的做法是使用别名 pd 来导入 Pandas。
## 导入 pandas 包
import pandas as pd
创建一个数据框
Pandas 中的数据存储在数据框(DataFrame)中,它是一种二维带标签的数据结构,其列的数据类型可能不同。
## 创建一个数据框
df = pd.DataFrame(
{
"姓名": [
"布朗德,欧文·哈里斯先生",
"艾伦,威廉·亨利先生",
"博内尔,伊丽莎白小姐"
],
"年龄": [22, 35, 58],
"性别": ["男", "男", "女"]
}
)
选择一列
如果你想处理特定列中的数据,可以使用列标签来选择它。结果是一个 Pandas 序列(Series)。
## 选择 '年龄' 列
df["年龄"]
进行基本统计
Pandas 提供了许多用于执行统计的功能。例如,你可以使用 max() 找到一列中的最大值。
## 找到最大年龄
df["年龄"].max()
你还可以使用 describe() 快速了解数据框中的数值数据概况。
## 描述数值数据
df.describe()
总结
在这个实验中,我们学习了如何导入 Pandas 包、创建数据框、选择列以及进行基本统计。Pandas 是一个多功能工具,能够处理不同类型的数据,使其成为数据分析和处理的绝佳选择。