Pandas DataFrame 박스 플롯 (Boxplot) 메서드

Beginner

소개

이 랩에서는 Pandas 라이브러리의 boxplot() 메서드를 사용하여 DataFrame 열에서 상자 그림 (boxplot) 을 만드는 방법을 배웁니다. 상자 그림은 상자 - 수염 그림 (box-and-whisker plot) 이라고도 하며, 최소값, 제 1 사분위수, 중앙값, 제 3 사분위수, 최대값의 5 가지 숫자 요약을 시각적으로 나타내는 그래프입니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단을 클릭하여 Notebook 탭으로 전환하여 실습을 위해 Jupyter Notebook에 액세스하십시오.

때로는 Jupyter Notebook 이 로딩을 완료하는 데 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사는 자동화할 수 없습니다.

학습 중에 문제가 발생하면 언제든지 Labby 에게 문의하십시오. 세션 후 피드백을 제공해주시면 문제를 신속하게 해결해 드리겠습니다.

필요한 라이브러리 가져오기

시작하려면 필요한 라이브러리를 가져와야 합니다. 이 경우 Pandas 라이브러리를 사용합니다.

import pandas as pd

DataFrame 생성하기

다음으로, 작업할 DataFrame 을 생성합니다. 이는 딕셔너리 또는 리스트의 리스트를 pd.DataFrame() 함수에 전달하여 수행할 수 있습니다. 이 예제에서는 다양한 과목의 학생 성적으로 DataFrame 을 만들어 보겠습니다.

df = pd.DataFrame([
    ['Abhishek', 75, 80, 90],
    ['Anurag', 80, 90, 95],
    ['Bavya', 80, 82, 85],
    ['Bavana', 95, 92, 92],
    ['Chetan', 85, 90, 89]
], columns=['Name', 'Maths', 'Science', 'Social'])

박스 플롯 생성

이제 boxplot() 메서드를 사용하여 DataFrame 열에서 박스 플롯을 생성할 수 있습니다. 이는 열 이름을 리스트로 column 매개변수에 전달하여 수행할 수 있습니다. 예를 들어, 'Social' 열에 대한 박스 플롯을 생성하려면 다음과 같이 합니다.

boxplot = df.boxplot(column=['Social'])

boxplot() 메서드는 Axes 객체를 반환하며, 원하는 경우 플롯을 추가로 사용자 정의하는 데 사용할 수 있습니다.

박스 플롯 사용자 정의

boxplot() 메서드에서 사용할 수 있는 다양한 매개변수를 사용하여 박스 플롯의 모양을 사용자 정의할 수 있습니다. 예를 들어, fontsize 매개변수를 사용하여 눈금 레이블의 글꼴 크기를 조정하고, rot 매개변수를 사용하여 레이블을 회전시키며, grid 매개변수를 사용하여 그리드를 표시하거나 숨길 수 있습니다.

boxplot = df.boxplot(column=['Social'], fontsize=12, rot=45, grid=True)

데이터 그룹화 및 여러 박스 플롯 생성

서로 다른 그룹 간의 데이터를 비교하려면 by 매개변수를 사용하여 특정 열을 기준으로 데이터를 그룹화할 수 있습니다. 예를 들어, 'DOB' 열을 기준으로 그룹화된 'Social' 열에 대한 박스 플롯을 생성하려면 다음과 같이 합니다.

boxplot = df.boxplot(column=['Social'], by='DOB')

이렇게 하면 'DOB' 열의 각 값에 대해 별도의 박스 플롯이 생성됩니다.

요약

이 랩에서는 Pandas 라이브러리의 boxplot() 메서드를 사용하여 DataFrame 열에서 박스 플롯을 생성하는 방법을 배웠습니다. 박스 플롯의 모양을 사용자 정의하고 데이터를 그룹화하여 여러 박스 플롯을 생성하는 방법을 배웠습니다. 박스 플롯은 데이터의 분포와 변동성을 이해하는 데 유용한 시각화 도구입니다. 중앙값, 사분위수 및 데이터 세트에 있는 이상치와 같은 정보를 포함하는 시각적 요약을 제공합니다. 이는 데이터의 추세, 패턴 및 이상 현상을 식별하는 데 도움이 될 수 있습니다.