Pandas 简介

Beginner

This tutorial is from open-source community. Access the source code

简介

在本实验中,我们将向你介绍 pandas 的基础知识,pandas 是 Python 中一个强大的数据处理库。我们将指导你完成各种任务,如导入 pandas、创建和查看数据、数据选择、操作等等。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到笔记本标签页,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作的验证无法自动化。

如果你在学习过程中遇到问题,请随时向 Labby 提问。课程结束后提供反馈,我们将立即为你解决问题。

这是一个实验(Guided Lab),提供逐步指导来帮助你学习和实践。请仔细按照说明完成每个步骤,获得实际操作经验。根据历史数据,这是一个 初级 级别的实验,完成率为 83%。获得了学习者 100% 的好评率。

导入 Pandas 和 Numpy

首先,我们需要导入 pandas 和 numpy 包。Pandas 是一个强大的数据处理库,而 numpy 用于数学运算。

## 导入必要的库
import numpy as np
import pandas as pd

创建对象

我们将通过传入一个值列表来创建一个 Series,pandas 会创建一个默认的整数索引。

## 创建一个 pandas 序列
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

创建数据框

我们可以通过传入一个 numpy 数组来创建一个DataFrame,该数组带有日期时间索引和带标签的列。

## 创建一个 pandas 数据框
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

查看数据

我们可以分别使用head()tail()方法来查看数据框的前几行和后几行。

## 查看前几行
df.head()

## 查看后几行
df.tail(3)

数据选择

我们可以使用标签或位置来选择数据。

## 选择单列
df["A"]

## 通过位置选择
df.iloc[3]

数据操作

我们可以对数据框执行诸如排序、应用函数等操作。

## 按轴排序
df.sort_index(axis=1, ascending=False)

## 对数据应用函数
df.apply(np.cumsum)

处理缺失数据

Pandas 提供了处理数据框中缺失数据的方法。

## 填充缺失数据
df.fillna(value=5)

## 获取值为 nan 的布尔掩码
pd.isna(df)

绘制数据

Pandas 使用 matplotlib 来绘制数据。

## 绘制数据
df.plot()

保存和加载数据

Pandas 提供了以各种格式(如 csv、excel、hdf5 等)保存和加载数据的方法。

## 将数据保存到 csv 文件
df.to_csv("foo.csv")

## 从 csv 文件加载数据
pd.read_csv("foo.csv")

总结

在本实验中,我们涵盖了 pandas 的基础知识,包括如何创建和查看数据、如何选择和操作数据,以及如何保存和加载数据。我们还学习了如何处理缺失数据以及如何绘制数据。这应为进一步探索使用 pandas 进行数据分析提供坚实的基础。