Pandas 를 이용한 데이터 테이블 결합

Beginner

This tutorial is from open-source community. Access the source code

소개

이 랩에서는 Python 의 Pandas 라이브러리를 사용하여 여러 테이블을 결합하는 방법을 탐구하기 위해 대기 질 데이터를 사용합니다. concatmerge 함수를 사용하여 이러한 작업을 수행합니다. 이 랩은 데이터 프레임을 효과적으로 연결하고 병합하는 방법을 이해하는 데 도움이 될 것입니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 실습을 위해 Jupyter Notebook에 액세스하십시오.

때로는 Jupyter Notebook 이 로딩을 완료하는 데 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한 사항으로 인해 작업의 유효성 검사는 자동화할 수 없습니다.

학습 중에 문제가 발생하면 언제든지 Labby 에게 문의하십시오. 세션 후 피드백을 제공해주시면 문제를 즉시 해결해 드리겠습니다.

이것은 가이드 실험입니다. 학습과 실습을 돕기 위한 단계별 지침을 제공합니다.각 단계를 완료하고 실무 경험을 쌓기 위해 지침을 주의 깊게 따르세요. 과거 데이터에 따르면, 이것은 초급 레벨의 실험이며 완료율은 95%입니다.학습자들로부터 100%의 긍정적인 리뷰율을 받았습니다.

필요한 라이브러리 가져오기

첫 번째 단계는 필요한 라이브러리를 가져오는 것입니다. 이 랩에서는 pandas 라이브러리를 사용합니다.

## Import the required library
import pandas as pd

데이터 세트 로드

대기 질과 관련된 두 개의 데이터 세트를 로드합니다. 하나는 질산염 데이터를 포함하고 다른 하나는 미세 입자 물질 데이터를 포함합니다.

## Load the Nitrate data
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv", parse_dates=True)
air_quality_no2 = air_quality_no2[["date.utc", "location", "parameter", "value"]]

## Load the Particulate matter data
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv", parse_dates=True)
air_quality_pm25 = air_quality_pm25[["date.utc", "location", "parameter", "value"]]

데이터 세트 연결 (Concatenating the Datasets)

다음으로, concat 함수를 사용하여 질산염과 미세 입자 물질의 측정값을 단일 테이블로 결합합니다.

## Concatenate the two dataframes
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0)

공통 식별자를 사용하여 테이블 병합 (Merge Tables Using a Common Identifier)

그런 다음 merge 함수를 사용하여 측정 테이블에 스테이션 좌표를 추가합니다. location 열을 기준으로 왼쪽 조인 (left join) 을 수행합니다.

## Load the stations coordinates data
stations_coord = pd.read_csv("data/air_quality_stations.csv")

## Merge the air_quality and stations_coord dataframes
air_quality = pd.merge(air_quality, stations_coord, how="left", on="location")

매개변수의 전체 설명 및 이름 추가 (Add Parameters' Full Description and Name)

마지막으로, 측정 테이블에 매개변수의 전체 설명과 이름을 추가합니다. parameterid 열을 기준으로 왼쪽 조인 (left join) 을 수행합니다.

## Load the air quality parameters data
air_quality_parameters = pd.read_csv("data/air_quality_parameters.csv")

## Merge the air_quality and air_quality_parameters dataframes
air_quality = pd.merge(air_quality, air_quality_parameters, how='left', left_on='parameter', right_on='id')

요약 (Summary)

이 랩에서는 pandas 에서 여러 테이블을 결합하는 방법을 배웠습니다. concat 함수를 사용하여 테이블을 연결하고, 공통 식별자를 사용하여 merge 함수로 테이블을 조인했습니다. 이러한 작업은 분석을 위해 여러 데이터 소스를 단일하고 일관된 데이터 세트로 결합해야 할 때 매우 중요합니다.