Pandas DataFrame groupby 메서드

Beginner

소개

이 랩에서는 Python 의 Pandas 라이브러리에서 groupby() 메서드를 사용하는 방법을 배웁니다. groupby() 메서드를 사용하면 DataFrame 을 그룹으로 분할하고 각 그룹에 대해 계산 또는 통계를 수행할 수 있습니다. 이는 데이터 분석 및 조작을 위한 강력한 도구입니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단을 클릭하여 Notebook 탭으로 전환하여 실습을 위해 Jupyter Notebook에 액세스하십시오.

때로는 Jupyter Notebook 이 로딩을 완료하는 데 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한 사항으로 인해 작업의 유효성 검사는 자동화할 수 없습니다.

학습 중에 문제가 발생하면 Labby 에게 문의하십시오. 세션 후 피드백을 제공해주시면 문제를 즉시 해결해 드리겠습니다.

필요한 라이브러리를 가져오고 DataFrame 생성

먼저 Pandas 라이브러리를 가져오고 DataFrame 객체를 생성해야 합니다. 다음은 예시입니다.

import pandas as pd

data = {'Name': ['Avinash', 'Amrutha', 'Chetana', 'Kartik','Nikhil'],
        'Percentage': [72, 98, 81, 87,85],
        'Course': ['Arts','B.Com','M.Tech','B.SC','BE']}

df = pd.DataFrame(data)

단일 열을 기준으로 DataFrame 그룹화

단일 열을 기준으로 DataFrame 을 그룹화하려면 groupby() 메서드를 사용하고 열 이름을 인수로 지정합니다. 다음은 예시입니다.

grp = df.groupby('Course')

그룹에 접근하기

그룹화된 DataFrame 의 그룹에 접근하려면 groups 속성을 사용합니다. 이 속성은 키가 그룹 이름이고 값이 각 그룹의 해당 행 인덱스인 딕셔너리를 반환합니다. 다음은 예시입니다.

print(grp.groups)

여러 열을 기준으로 DataFrame 그룹화

DataFrame 을 여러 열을 기준으로 그룹화하려면 groupby() 메서드에 열 이름 목록을 전달합니다. 다음은 예시입니다.

grp = df.groupby(['Course', 'Name'])

단일 그룹 선택

그룹화된 DataFrame 에서 단일 그룹을 선택하려면 get_group() 메서드를 사용하고 그룹 이름을 인수로 지정합니다. 다음은 예시입니다.

print(grp.get_group(('Arts', 'Avinash')))

집계 연산 수행

그룹화된 DataFrame 이 있으면 그룹화된 데이터에 대해 집계 연산을 수행할 수 있습니다. 예를 들어, 각 그룹에 대한 숫자 열의 평균을 계산할 수 있습니다. 다음은 예시입니다.

print(grp['Percentage'].mean())

요약

이 랩에서는 Pandas 라이브러리에서 groupby() 메서드를 사용하여 하나 이상의 열을 기준으로 DataFrame 을 그룹화하는 방법을 배웠습니다. 또한 그룹에 액세스하고, 단일 그룹을 선택하고, 그룹화된 데이터에 대한 집계 연산을 수행하는 방법도 배웠습니다. groupby() 메서드는 데이터 분석 및 조작을 위한 강력한 도구로, 그룹별로 데이터를 분석하여 데이터로부터 통찰력을 얻을 수 있도록 합니다.