Pandas DataFrame Pivot 메서드

Beginner

소개

이 랩에서는 Python Pandas 라이브러리의 pivot() 메서드를 사용하는 방법을 배웁니다. pivot() 메서드를 사용하면 인덱스와 열 값의 구성을 변경하여 DataFrame 을 변환하거나 재구성할 수 있습니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단을 클릭하여 Notebook 탭으로 전환하여 실습을 위해 Jupyter Notebook에 액세스하십시오.

때로는 Jupyter Notebook 이 로딩을 완료하는 데 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한 사항으로 인해 작업의 유효성 검사는 자동화할 수 없습니다.

학습 중에 문제가 발생하면 언제든지 Labby 에게 문의하십시오. 세션 후 피드백을 제공해주시면 문제를 신속하게 해결해 드리겠습니다.

pandas 임포트 및 DataFrame 생성

  • 먼저 pandas 라이브러리를 임포트하고 pd.DataFrame() 함수를 사용하여 DataFrame 을 생성합니다.
import pandas as pd

data = {
  'crop': ['Rice', 'Wheat', 'Rice', 'Wheat', 'Rice', 'Wheat'],
  'state': ['karnataka', 'karnataka', 'Tamilnadu', 'Tamilnadu', 'Kerala', 'Kerala'],
  'Temperature': [29, 29, 31, 31, 25, 25],
  'Humidity': [50, 50, 62, 62, 45, 45]
}

df = pd.DataFrame(data)
print(df)
  • 이렇게 하면 'crop', 'state', 'Temperature', 'Humidity' 열이 있는 DataFrame 이 생성됩니다.

pivot() 메서드를 사용하여 DataFrame 재구성

  • DataFrame 을 재구성하려면 pivot() 메서드를 사용하고 인덱스와 열 이름을 지정할 수 있습니다.
df_pivot = df.pivot(index='crop', columns='state')
print(df_pivot)
  • pivot() 메서드는 'crop'을 새 인덱스로, 'state'를 새 열로 사용하여 DataFrame 을 재정렬합니다. 결과 DataFrame 은 'crop'과 'state'의 각 조합에 대한 'Temperature' 및 'Humidity'를 열로 갖게 됩니다.

특정 열 선택을 위한 values 매개변수 지정

  • 재구성된 DataFrame 에 특정 열만 포함하려는 경우, pivot() 메서드에서 values 매개변수를 사용할 수 있습니다.
df_pivot_specific = df.pivot(index='crop', columns='state', values='Temperature')
print(df_pivot_specific)
  • 결과 DataFrame 은 'crop'과 'state'의 각 조합에 대한 'Temperature' 열만 포함합니다.

DataFrame 내 중복 데이터 처리 방법

  • DataFrame 에 중복된 값이 포함된 경우, pivot() 메서드는 ValueError를 발생시킵니다. 이러한 경우, 재구성하기 전에 DataFrame 에 중복된 항목이 없는지 확인해야 합니다.
df_duplicated = pd.DataFrame({'crop': ['Rice', 'Rice', 'Wheat', 'Wheat', 'Rice', 'Wheat'],
                              'state': ['karnataka', 'karnataka', 'Tamilnadu', 'Tamilnadu', 'Kerala', 'Kerala'],
                              'Temperature': [29, 29, 31, 31, 25, 25],
                              'Humidity': [50, 50, 62, 62, 45, 45]})

df_duplicated_pivot = df_duplicated.pivot(index='crop', columns='state', values='Temperature')
print(df_duplicated_pivot)
  • 이 예제에서 DataFrame 은 'crop'과 'state'의 조합에 대한 중복된 항목을 포함하고 있으며, pivot() 메서드를 사용하면 ValueError가 발생합니다.

요약

이 랩에서는 Python Pandas 라이브러리에서 pivot() 메서드의 기본적인 사용법을 다루었습니다. pivot() 메서드를 사용하면 인덱스와 열 값의 구성을 변경하여 DataFrame 을 변환하거나 재구성할 수 있습니다. DataFrame 을 재구성하고, 특정 열을 선택하고, 중복을 처리하는 방법을 배웠습니다. pivot() 메서드는 데이터 조작 및 분석을 위한 강력한 도구입니다.