Pandas 中的数据选择

PythonPythonBeginner
立即练习

This tutorial is from open-source community. Access the source code

💡 本教程由 AI 辅助翻译自英文原版。如需查看原文,您可以 切换至英文原版

简介

在本实验中,我们将学习如何使用Pandas(Python中一个流行的数据分析和操作库)从DataFrame中选择特定数据。本教程将使用泰坦尼克号数据集。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到“笔记本”标签,以访问Jupyter Notebook进行练习。

有时,你可能需要等待几秒钟让Jupyter Notebook完成加载。由于Jupyter Notebook的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,随时向Labby提问。课程结束后提供反馈,我们会及时为你解决问题。

导入必要的库和数据

首先,我们需要导入Pandas库和泰坦尼克号数据集。

## 导入pandas库
import pandas as pd

## 加载泰坦尼克号数据集
titanic = pd.read_csv("data/titanic.csv")
titanic.head()

选择单列

要选择单列,请使用方括号 [] 并加上感兴趣的列名。

## 选择 'Age' 列
ages = titanic["Age"]

## 显示前5行
ages.head()

选择多列

要选择多列,请在选择括号 [] 内使用列名列表。

## 选择 'Age' 和 'Sex' 列
age_sex = titanic[["Age", "Sex"]]

## 显示前5行
age_sex.head()

筛选特定行

要根据条件表达式选择行,请在选择括号 [] 内使用该条件。

## 筛选 'Age' 大于35的行
above_35 = titanic[titanic["Age"] > 35]

## 显示前5行
above_35.head()

选择特定的行和列

要一次性选择行和列,我们使用 lociloc 运算符。

## 选择年龄大于35岁乘客的 'Name'
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]

## 显示前5行
adult_names.head()

总结

在本实验中,我们学习了如何在Pandas中从DataFrame中选择和过滤数据。我们学习了如何选择单列或多列、基于特定条件过滤行以及选择特定的行和列。这些操作是使用Pandas进行数据分析和处理的基础。