使用 Pandas 进行数据处理

Beginner

This tutorial is from open-source community. Access the source code

简介

本实验将指导你如何使用 Pandas(一个强大的 Python 数据分析和操作库)来读取、写入和操作数据。我们将使用泰坦尼克号沉船事件的数据集进行此练习。

虚拟机提示

虚拟机启动完成后,点击左上角切换到“笔记本”标签以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,请随时向 Labby 提问。课程结束后提供反馈,我们将立即为你解决问题。

这是一个实验(Guided Lab),提供逐步指导来帮助你学习和实践。请仔细按照说明完成每个步骤,获得实际操作经验。根据历史数据,这是一个 初级 级别的实验,完成率为 88%。获得了学习者 100% 的好评率。

导入必要的库

首先,我们需要为任务导入必要的库。对于本实验,我们只需要 pandas。

## 导入 pandas 库
import pandas as pd

从 CSV 文件读取数据

下一步是从 CSV 文件读取数据。我们将使用 pandas 的read_csv函数来完成此操作。

## 从 CSV 文件读取数据
titanic = pd.read_csv("data/titanic.csv")

检查数据

读取数据后,查看数据的样子总是个好主意。我们将显示 DataFrame 的前几行。

## 显示 DataFrame 的前几行
titanic.head()

检查数据类型

我们可以使用 DataFrame 的dtypes属性来检查每列的数据类型。

## 检查每列的数据类型
titanic.dtypes

将数据写入 Excel

你还可以使用to_excel方法将数据写入 Excel 文件。让我们将 DataFrame 保存到一个 Excel 文件中。

## 将 DataFrame 保存到 Excel 文件
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)

从 Excel 读取数据

从 Excel 文件读取数据就像从 CSV 文件读取数据一样简单。我们将使用 pandas 的read_excel函数。

## 从 Excel 文件读取数据
titanic = pd.read_excel("titanic.xlsx", sheet_name="passengers")

检查 DataFrame 信息

info方法提供了 DataFrame 的技术摘要。这对于检查数据类型、非空值数量和内存使用情况很有用。

## 检查 DataFrame 信息
titanic.info()

总结

在这个实验中,我们学习了如何使用 pandas 读取和写入数据,以及如何检查 DataFrame 的信息。pandas 提供了广泛的功能来处理和操作数据,使其成为数据分析的强大工具。