简介
本实验将指导你如何使用 Pandas(一个强大的 Python 数据分析和操作库)来读取、写入和操作数据。我们将使用泰坦尼克号沉船事件的数据集进行此练习。
虚拟机提示
虚拟机启动完成后,点击左上角切换到“笔记本”标签以访问 Jupyter Notebook 进行练习。
有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。
如果你在学习过程中遇到问题,请随时向 Labby 提问。课程结束后提供反馈,我们将立即为你解决问题。
导入必要的库
首先,我们需要为任务导入必要的库。对于本实验,我们只需要 pandas。
## 导入 pandas 库
import pandas as pd
从 CSV 文件读取数据
下一步是从 CSV 文件读取数据。我们将使用 pandas 的read_csv函数来完成此操作。
## 从 CSV 文件读取数据
titanic = pd.read_csv("data/titanic.csv")
检查数据
读取数据后,查看数据的样子总是个好主意。我们将显示 DataFrame 的前几行。
## 显示 DataFrame 的前几行
titanic.head()
检查数据类型
我们可以使用 DataFrame 的dtypes属性来检查每列的数据类型。
## 检查每列的数据类型
titanic.dtypes
将数据写入 Excel
你还可以使用to_excel方法将数据写入 Excel 文件。让我们将 DataFrame 保存到一个 Excel 文件中。
## 将 DataFrame 保存到 Excel 文件
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)
从 Excel 读取数据
从 Excel 文件读取数据就像从 CSV 文件读取数据一样简单。我们将使用 pandas 的read_excel函数。
## 从 Excel 文件读取数据
titanic = pd.read_excel("titanic.xlsx", sheet_name="passengers")
检查 DataFrame 信息
info方法提供了 DataFrame 的技术摘要。这对于检查数据类型、非空值数量和内存使用情况很有用。
## 检查 DataFrame 信息
titanic.info()
总结
在这个实验中,我们学习了如何使用 pandas 读取和写入数据,以及如何检查 DataFrame 的信息。pandas 提供了广泛的功能来处理和操作数据,使其成为数据分析的强大工具。