简介
在本实验中,我们将向你介绍 pandas 的基础知识,pandas 是 Python 中一个强大的数据处理库。我们将指导你完成各种任务,如导入 pandas、创建和查看数据、数据选择、操作等等。
虚拟机使用提示
虚拟机启动完成后,点击左上角切换到笔记本标签页,以访问 Jupyter Notebook 进行练习。
有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作的验证无法自动化。
如果你在学习过程中遇到问题,请随时向 Labby 提问。课程结束后提供反馈,我们将立即为你解决问题。
导入 Pandas 和 Numpy
首先,我们需要导入 pandas 和 numpy 包。Pandas 是一个强大的数据处理库,而 numpy 用于数学运算。
## 导入必要的库
import numpy as np
import pandas as pd
创建对象
我们将通过传入一个值列表来创建一个 Series,pandas 会创建一个默认的整数索引。
## 创建一个 pandas 序列
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s
创建数据框
我们可以通过传入一个 numpy 数组来创建一个DataFrame,该数组带有日期时间索引和带标签的列。
## 创建一个 pandas 数据框
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df
查看数据
我们可以分别使用head()和tail()方法来查看数据框的前几行和后几行。
## 查看前几行
df.head()
## 查看后几行
df.tail(3)
数据选择
我们可以使用标签或位置来选择数据。
## 选择单列
df["A"]
## 通过位置选择
df.iloc[3]
数据操作
我们可以对数据框执行诸如排序、应用函数等操作。
## 按轴排序
df.sort_index(axis=1, ascending=False)
## 对数据应用函数
df.apply(np.cumsum)
处理缺失数据
Pandas 提供了处理数据框中缺失数据的方法。
## 填充缺失数据
df.fillna(value=5)
## 获取值为 nan 的布尔掩码
pd.isna(df)
绘制数据
Pandas 使用 matplotlib 来绘制数据。
## 绘制数据
df.plot()
保存和加载数据
Pandas 提供了以各种格式(如 csv、excel、hdf5 等)保存和加载数据的方法。
## 将数据保存到 csv 文件
df.to_csv("foo.csv")
## 从 csv 文件加载数据
pd.read_csv("foo.csv")
总结
在本实验中,我们涵盖了 pandas 的基础知识,包括如何创建和查看数据、如何选择和操作数据,以及如何保存和加载数据。我们还学习了如何处理缺失数据以及如何绘制数据。这应为进一步探索使用 pandas 进行数据分析提供坚实的基础。