Введение
В этом практическом занятии мы будем работать с данными о качестве воздуха, чтобы изучить, как объединять несколько таблиц с использованием библиотеки Pandas для Python. Мы будем использовать функции concat и merge для выполнения этих операций. Это практическое занятие поможет вам понять, как эффективно конкатенировать и объединять датафреймы.
Советы по работе с ВМ
После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Ноутбук и получить доступ к Jupyter Notebook для практики.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.
Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.
Импортируем необходимые библиотеки
Нашим первым шагом будет импортировать библиотеки, которые нам понадобятся. Для этого практического занятия мы будем использовать библиотеку pandas.
## Import the required library
import pandas as pd
Загружаем датасеты
Мы загрузим два датасета, связанных с качеством воздуха. Один содержит данные о нитратах, а другой - данные о细微颗粒物 (частицах).
## Load the Nitrate data
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv", parse_dates=True)
air_quality_no2 = air_quality_no2[["date.utc", "location", "parameter", "value"]]
## Load the Particulate matter data
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv", parse_dates=True)
air_quality_pm25 = air_quality_pm25[["date.utc", "location", "parameter", "value"]]
Конкатенация датасетов
Далее мы объединим измерения нитратов и细微颗粒物 (частиц) в одну таблицу с использованием функции concat.
## Concatenate the two dataframes
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0)
Объединение таблиц с использованием общего идентификатора
Затем мы добавим координаты станций в таблицу измерений с использованием функции merge. Мы выполним левый внешний join по столбцу location.
## Load the stations coordinates data
stations_coord = pd.read_csv("data/air_quality_stations.csv")
## Merge the air_quality and stations_coord dataframes
air_quality = pd.merge(air_quality, stations_coord, how="left", on="location")
Добавляем полное описание и имя параметров
Наконец, мы добавим полное описание и имя параметров в таблицу измерений. Мы выполняем левый внешний join по столбцам parameter и id.
## Load the air quality parameters data
air_quality_parameters = pd.read_csv("data/air_quality_parameters.csv")
## Merge the air_quality and air_quality_parameters dataframes
air_quality = pd.merge(air_quality, air_quality_parameters, how='left', left_on='parameter', right_on='id')
Резюме
В этом практическом занятии мы узнали, как объединять несколько таблиц в pandas. Мы использовали функцию concat для конкатенации таблиц и функцию merge для объединения таблиц с использованием общего идентификатора. Эти операции важны при работе с несколькими источниками данных, которые необходимо объединить в единый, целостный датасет для анализа.