Объединение таблиц данных в Pandas

PythonPythonBeginner
Практиковаться сейчас

This tutorial is from open-source community. Access the source code

💡 Этот учебник переведен с английского с помощью ИИ. Чтобы просмотреть оригинал, вы можете перейти на английский оригинал

Введение

В этом практическом занятии мы будем работать с данными о качестве воздуха, чтобы изучить, как объединять несколько таблиц с использованием библиотеки Pandas для Python. Мы будем использовать функции concat и merge для выполнения этих операций. Это практическое занятие поможет вам понять, как эффективно конкатенировать и объединять датафреймы.

Советы по работе с ВМ

После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Ноутбук и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Это Guided Lab, который предоставляет пошаговые инструкции, чтобы помочь вам учиться и практиковаться. Внимательно следуйте инструкциям, чтобы выполнить каждый шаг и получить практический опыт. Исторические данные показывают, что это лабораторная работа уровня начальный с процентом завершения 94%. Он получил 100% положительных отзывов от учащихся.

Импортируем необходимые библиотеки

Нашим первым шагом будет импортировать библиотеки, которые нам понадобятся. Для этого практического занятия мы будем использовать библиотеку pandas.

## Import the required library
import pandas as pd

Загружаем датасеты

Мы загрузим два датасета, связанных с качеством воздуха. Один содержит данные о нитратах, а другой - данные о细微颗粒物 (частицах).

## Load the Nitrate data
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv", parse_dates=True)
air_quality_no2 = air_quality_no2[["date.utc", "location", "parameter", "value"]]

## Load the Particulate matter data
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv", parse_dates=True)
air_quality_pm25 = air_quality_pm25[["date.utc", "location", "parameter", "value"]]

Конкатенация датасетов

Далее мы объединим измерения нитратов и细微颗粒物 (частиц) в одну таблицу с использованием функции concat.

## Concatenate the two dataframes
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0)

Объединение таблиц с использованием общего идентификатора

Затем мы добавим координаты станций в таблицу измерений с использованием функции merge. Мы выполним левый внешний join по столбцу location.

## Load the stations coordinates data
stations_coord = pd.read_csv("data/air_quality_stations.csv")

## Merge the air_quality and stations_coord dataframes
air_quality = pd.merge(air_quality, stations_coord, how="left", on="location")

Добавляем полное описание и имя параметров

Наконец, мы добавим полное описание и имя параметров в таблицу измерений. Мы выполняем левый внешний join по столбцам parameter и id.

## Load the air quality parameters data
air_quality_parameters = pd.read_csv("data/air_quality_parameters.csv")

## Merge the air_quality and air_quality_parameters dataframes
air_quality = pd.merge(air_quality, air_quality_parameters, how='left', left_on='parameter', right_on='id')

Резюме

В этом практическом занятии мы узнали, как объединять несколько таблиц в pandas. Мы использовали функцию concat для конкатенации таблиц и функцию merge для объединения таблиц с использованием общего идентификатора. Эти операции важны при работе с несколькими источниками данных, которые необходимо объединить в единый, целостный датасет для анализа.