소개
이 랩에서는 Python 의 Pandas 라이브러리를 사용하여 여러 테이블을 결합하는 방법을 탐구하기 위해 대기 질 데이터를 사용합니다. concat 및 merge 함수를 사용하여 이러한 작업을 수행합니다. 이 랩은 데이터 프레임을 효과적으로 연결하고 병합하는 방법을 이해하는 데 도움이 될 것입니다.
VM 팁
VM 시작이 완료되면 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 실습을 위해 Jupyter Notebook에 액세스하십시오.
때로는 Jupyter Notebook 이 로딩을 완료하는 데 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한 사항으로 인해 작업의 유효성 검사는 자동화할 수 없습니다.
학습 중에 문제가 발생하면 언제든지 Labby 에게 문의하십시오. 세션 후 피드백을 제공해주시면 문제를 즉시 해결해 드리겠습니다.
필요한 라이브러리 가져오기
첫 번째 단계는 필요한 라이브러리를 가져오는 것입니다. 이 랩에서는 pandas 라이브러리를 사용합니다.
## Import the required library
import pandas as pd
데이터 세트 로드
대기 질과 관련된 두 개의 데이터 세트를 로드합니다. 하나는 질산염 데이터를 포함하고 다른 하나는 미세 입자 물질 데이터를 포함합니다.
## Load the Nitrate data
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv", parse_dates=True)
air_quality_no2 = air_quality_no2[["date.utc", "location", "parameter", "value"]]
## Load the Particulate matter data
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv", parse_dates=True)
air_quality_pm25 = air_quality_pm25[["date.utc", "location", "parameter", "value"]]
데이터 세트 연결 (Concatenating the Datasets)
다음으로, concat 함수를 사용하여 질산염과 미세 입자 물질의 측정값을 단일 테이블로 결합합니다.
## Concatenate the two dataframes
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0)
공통 식별자를 사용하여 테이블 병합 (Merge Tables Using a Common Identifier)
그런 다음 merge 함수를 사용하여 측정 테이블에 스테이션 좌표를 추가합니다. location 열을 기준으로 왼쪽 조인 (left join) 을 수행합니다.
## Load the stations coordinates data
stations_coord = pd.read_csv("data/air_quality_stations.csv")
## Merge the air_quality and stations_coord dataframes
air_quality = pd.merge(air_quality, stations_coord, how="left", on="location")
매개변수의 전체 설명 및 이름 추가 (Add Parameters' Full Description and Name)
마지막으로, 측정 테이블에 매개변수의 전체 설명과 이름을 추가합니다. parameter 및 id 열을 기준으로 왼쪽 조인 (left join) 을 수행합니다.
## Load the air quality parameters data
air_quality_parameters = pd.read_csv("data/air_quality_parameters.csv")
## Merge the air_quality and air_quality_parameters dataframes
air_quality = pd.merge(air_quality, air_quality_parameters, how='left', left_on='parameter', right_on='id')
요약 (Summary)
이 랩에서는 pandas 에서 여러 테이블을 결합하는 방법을 배웠습니다. concat 함수를 사용하여 테이블을 연결하고, 공통 식별자를 사용하여 merge 함수로 테이블을 조인했습니다. 이러한 작업은 분석을 위해 여러 데이터 소스를 단일하고 일관된 데이터 세트로 결합해야 할 때 매우 중요합니다.