用 Pandas 掌握数据：入门指南

简介

在本实验中，我们将向你介绍 pandas 的基础知识，pandas 是 Python 中一个强大的数据处理库。我们将指导你完成各种任务，如导入 pandas、创建和查看数据、数据选择、操作等等。

虚拟机启动完成后，点击左上角切换到笔记本标签页，以访问 Jupyter Notebook 进行练习。

有时，你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制，操作的验证无法自动化。

如果你在学习过程中遇到问题，请随时向 Labby 提问。课程结束后提供反馈，我们将立即为你解决问题。

这是一个实验（Guided Lab），提供逐步指导来帮助你学习和实践。请仔细按照说明完成每个步骤，获得实际操作经验。根据历史数据，这是一个初级级别的实验，完成率为 83%。获得了学习者 100% 的好评率。

首先，我们需要导入 pandas 和 numpy 包。Pandas 是一个强大的数据处理库，而 numpy 用于数学运算。

## 导入必要的库
import numpy as np
import pandas as pd

我们将通过传入一个值列表来创建一个 Series，pandas 会创建一个默认的整数索引。

## 创建一个 pandas 序列
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

我们可以通过传入一个 numpy 数组来创建一个DataFrame，该数组带有日期时间索引和带标签的列。

## 创建一个 pandas 数据框
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

我们可以分别使用head()和tail()方法来查看数据框的前几行和后几行。

## 查看前几行
df.head()

## 查看后几行
df.tail(3)

我们可以使用标签或位置来选择数据。

## 选择单列
df["A"]

## 通过位置选择
df.iloc[3]

我们可以对数据框执行诸如排序、应用函数等操作。

## 按轴排序
df.sort_index(axis=1, ascending=False)

## 对数据应用函数
df.apply(np.cumsum)

Pandas 提供了处理数据框中缺失数据的方法。

## 填充缺失数据
df.fillna(value=5)

## 获取值为 nan 的布尔掩码
pd.isna(df)

Pandas 使用 matplotlib 来绘制数据。

## 绘制数据
df.plot()

Pandas 提供了以各种格式（如 csv、excel、hdf5 等）保存和加载数据的方法。

## 将数据保存到 csv 文件
df.to_csv("foo.csv")

## 从 csv 文件加载数据
pd.read_csv("foo.csv")

在本实验中，我们涵盖了 pandas 的基础知识，包括如何创建和查看数据、如何选择和操作数据，以及如何保存和加载数据。我们还学习了如何处理缺失数据以及如何绘制数据。这应为进一步探索使用 pandas 进行数据分析提供坚实的基础。