在Pandas中合并数据表

PythonPythonBeginner
立即练习

This tutorial is from open-source community. Access the source code

💡 本教程由 AI 辅助翻译自英文原版。如需查看原文,您可以 切换至英文原版

简介

在本实验中,我们将处理空气质量数据,以探索如何使用 Python 的 Pandas 库来合并多个表格。我们将使用 concatmerge 函数来执行这些操作。本实验将帮助你了解如何有效地连接和合并数据框。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到 笔记本 标签页,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作的验证无法自动化。

如果你在学习过程中遇到问题,随时向 Labby 提问。课程结束后提供反馈,我们将立即为你解决问题。

导入所需库

我们的第一步是导入所需的库。对于本实验,我们将使用 pandas 库。

## 导入所需库
import pandas as pd

加载数据集

我们将加载两个与空气质量相关的数据集。一个包含硝酸盐数据,另一个包含颗粒物数据。

## 加载硝酸盐数据
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv", parse_dates=True)
air_quality_no2 = air_quality_no2[["date.utc", "location", "parameter", "value"]]

## 加载颗粒物数据
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv", parse_dates=True)
air_quality_pm25 = air_quality_pm25[["date.utc", "location", "parameter", "value"]]

拼接数据集

接下来,我们将使用 concat 函数把硝酸盐和颗粒物的测量数据合并到一个表格中。

## 拼接两个数据框
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0)

使用公共标识符合并表格

然后,我们将使用 merge 函数把站点坐标添加到测量数据表中。我们将在 location 列上执行左连接。

## 加载站点坐标数据
stations_coord = pd.read_csv("data/air_quality_stations.csv")

## 合并 air_quality 和 stations_coord 数据框
air_quality = pd.merge(air_quality, stations_coord, how="left", on="location")

添加参数的完整描述和名称

最后,我们将把参数的完整描述和名称添加到测量数据表中。我们在 parameterid 列上执行左连接。

## 加载空气质量参数数据
air_quality_parameters = pd.read_csv("data/air_quality_parameters.csv")

## 合并 air_quality 和 air_quality_parameters 数据框
air_quality = pd.merge(air_quality, air_quality_parameters, how='left', left_on='parameter', right_on='id')

总结

在这个实验中,我们学习了如何在pandas中合并多个表格。我们使用 concat 函数来拼接表格,并使用 merge 函数通过公共标识符合并表格。当处理多个需要合并成一个连贯的数据集进行分析的数据源时,这些操作至关重要。