Pandas 简介

PythonPythonBeginner
立即练习

This tutorial is from open-source community. Access the source code

💡 本教程由 AI 辅助翻译自英文原版。如需查看原文,您可以 切换至英文原版

简介

在本实验中,我们将向你介绍pandas的基础知识,pandas是Python中一个强大的数据处理库。我们将指导你完成各种任务,如导入pandas、创建和查看数据、数据选择、操作等等。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到笔记本标签页,以访问Jupyter Notebook进行练习。

有时,你可能需要等待几秒钟让Jupyter Notebook完成加载。由于Jupyter Notebook的限制,操作的验证无法自动化。

如果你在学习过程中遇到问题,请随时向Labby提问。课程结束后提供反馈,我们将立即为你解决问题。

导入Pandas和Numpy

首先,我们需要导入pandas和numpy包。Pandas是一个强大的数据处理库,而numpy用于数学运算。

## 导入必要的库
import numpy as np
import pandas as pd

创建对象

我们将通过传入一个值列表来创建一个 Series,pandas 会创建一个默认的整数索引。

## 创建一个pandas序列
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

创建数据框

我们可以通过传入一个numpy数组来创建一个DataFrame,该数组带有日期时间索引和带标签的列。

## 创建一个pandas数据框
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

查看数据

我们可以分别使用head()tail()方法来查看数据框的前几行和后几行。

## 查看前几行
df.head()

## 查看后几行
df.tail(3)

数据选择

我们可以使用标签或位置来选择数据。

## 选择单列
df["A"]

## 通过位置选择
df.iloc[3]

数据操作

我们可以对数据框执行诸如排序、应用函数等操作。

## 按轴排序
df.sort_index(axis=1, ascending=False)

## 对数据应用函数
df.apply(np.cumsum)

处理缺失数据

Pandas提供了处理数据框中缺失数据的方法。

## 填充缺失数据
df.fillna(value=5)

## 获取值为nan的布尔掩码
pd.isna(df)

绘制数据

Pandas 使用 matplotlib 来绘制数据。

## 绘制数据
df.plot()

保存和加载数据

Pandas 提供了以各种格式(如 csv、excel、hdf5 等)保存和加载数据的方法。

## 将数据保存到 csv 文件
df.to_csv("foo.csv")

## 从 csv 文件加载数据
pd.read_csv("foo.csv")

总结

在本实验中,我们涵盖了pandas的基础知识,包括如何创建和查看数据、如何选择和操作数据,以及如何保存和加载数据。我们还学习了如何处理缺失数据以及如何绘制数据。这应为进一步探索使用pandas进行数据分析提供坚实的基础。