使用 Pandas 进行数据处理

Beginner

This tutorial is from open-source community. Access the source code

简介

Pandas 是由 Python 开发的强大数据处理工具。由于其灵活性和易用性,它常用于数据分析和清理。在本实验中,我们将学习如何使用 Pandas 执行基本操作,如加载数据、创建数据框、访问数据以及进行简单统计。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到“笔记本”标签页,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,随时向 Labby 提问。课程结束后提供反馈,我们会及时为你解决问题。

这是一个实验(Guided Lab),提供逐步指导来帮助你学习和实践。请仔细按照说明完成每个步骤,获得实际操作经验。根据历史数据,这是一个 初级 级别的实验,完成率为 86%。获得了学习者 100% 的好评率。

导入 Pandas 包

在使用 Pandas 之前,你需要先导入它。通常的做法是使用别名 pd 来导入 Pandas。

## 导入 pandas 包
import pandas as pd

创建一个数据框

Pandas 中的数据存储在数据框(DataFrame)中,它是一种二维带标签的数据结构,其列的数据类型可能不同。

## 创建一个数据框
df = pd.DataFrame(
    {
        "姓名": [
            "布朗德,欧文·哈里斯先生",
            "艾伦,威廉·亨利先生",
            "博内尔,伊丽莎白小姐"
        ],
        "年龄": [22, 35, 58],
        "性别": ["男", "男", "女"]
    }
)

选择一列

如果你想处理特定列中的数据,可以使用列标签来选择它。结果是一个 Pandas 序列(Series)。

## 选择 '年龄' 列
df["年龄"]

进行基本统计

Pandas 提供了许多用于执行统计的功能。例如,你可以使用 max() 找到一列中的最大值。

## 找到最大年龄
df["年龄"].max()

你还可以使用 describe() 快速了解数据框中的数值数据概况。

## 描述数值数据
df.describe()

总结

在这个实验中,我们学习了如何导入 Pandas 包、创建数据框、选择列以及进行基本统计。Pandas 是一个多功能工具,能够处理不同类型的数据,使其成为数据分析和处理的绝佳选择。