用 Pandas 精通数据分析

简介

Pandas 是由 Python 开发的强大数据处理工具。由于其灵活性和易用性，它常用于数据分析和清理。在本实验中，我们将学习如何使用 Pandas 执行基本操作，如加载数据、创建数据框、访问数据以及进行简单统计。

虚拟机使用提示

虚拟机启动完成后，点击左上角切换到“笔记本”标签页，以访问 Jupyter Notebook 进行练习。

有时，你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制，操作验证无法自动化。

如果你在学习过程中遇到问题，随时向 Labby 提问。课程结束后提供反馈，我们会及时为你解决问题。

这是一个实验（Guided Lab），提供逐步指导来帮助你学习和实践。请仔细按照说明完成每个步骤，获得实际操作经验。根据历史数据，这是一个初级级别的实验，完成率为 86%。获得了学习者 100% 的好评率。

导入 Pandas 包

在使用 Pandas 之前，你需要先导入它。通常的做法是使用别名 pd 来导入 Pandas。

## 导入 pandas 包
import pandas as pd

创建一个数据框

Pandas 中的数据存储在数据框（DataFrame）中，它是一种二维带标签的数据结构，其列的数据类型可能不同。

## 创建一个数据框
df = pd.DataFrame(
    {
        "姓名": [
            "布朗德，欧文·哈里斯先生",
            "艾伦，威廉·亨利先生",
            "博内尔，伊丽莎白小姐"
        ],
        "年龄": [22, 35, 58],
        "性别": ["男", "男", "女"]
    }
)

选择一列

如果你想处理特定列中的数据，可以使用列标签来选择它。结果是一个 Pandas 序列（Series）。

## 选择 '年龄' 列
df["年龄"]

进行基本统计

Pandas 提供了许多用于执行统计的功能。例如，你可以使用 max() 找到一列中的最大值。

## 找到最大年龄
df["年龄"].max()

你还可以使用 describe() 快速了解数据框中的数值数据概况。

## 描述数值数据
df.describe()

总结

在这个实验中，我们学习了如何导入 Pandas 包、创建数据框、选择列以及进行基本统计。Pandas 是一个多功能工具，能够处理不同类型的数据，使其成为数据分析和处理的绝佳选择。

使用 Pandas 进行数据处理

简介

虚拟机使用提示

导入 Pandas 包

创建一个数据框

选择一列

进行基本统计

总结