소개
Pandas 는 Python 으로 개발된 강력한 데이터 조작 도구입니다. 유연하고 사용하기 쉬워서 데이터 분석 및 정리에 자주 사용됩니다. 이 랩에서는 Pandas 를 사용하여 데이터를 로드하고, 데이터 프레임을 생성하고, 데이터에 접근하고, 간단한 통계를 수행하는 등 기본적인 작업을 수행하는 방법을 배웁니다.
VM 팁
VM 시작이 완료되면, 왼쪽 상단을 클릭하여 Notebook 탭으로 전환하여 실습을 위해 Jupyter Notebook에 접근하십시오.
때로는 Jupyter Notebook 이 로딩을 완료하는 데 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사는 자동화될 수 없습니다.
학습 중에 문제가 발생하면 언제든지 Labby 에게 문의하십시오. 세션 후 피드백을 제공해주시면 문제를 신속하게 해결해 드리겠습니다.
Pandas 패키지 임포트
Pandas 를 사용하기 전에, 먼저 임포트해야 합니다. Pandas 를 pd라는 별칭 (alias) 으로 임포트하는 것이 일반적인 관례입니다.
## pandas 패키지 임포트
import pandas as pd
DataFrame 생성
Pandas 의 데이터는 DataFrame 에 저장됩니다. DataFrame 은 잠재적으로 서로 다른 유형의 열을 가진 2 차원 레이블 데이터 구조입니다.
## DataFrame 생성
df = pd.DataFrame(
{
"Name": [
"Braund, Mr. Owen Harris",
"Allen, Mr. William Henry",
"Bonnell, Miss. Elizabeth",
],
"Age": [22, 35, 58],
"Sex": ["male", "male", "female"],
}
)
열 선택
특정 열의 데이터를 사용하고 싶다면, 열 레이블을 사용하여 선택할 수 있습니다. 결과는 Pandas Series 입니다.
## 'Age' 열 선택
df["Age"]
기본 통계 수행
Pandas 는 통계를 수행하기 위한 많은 기능을 제공합니다. 예를 들어, max()를 사용하여 열에서 최대값을 찾을 수 있습니다.
## 최대 나이 찾기
df["Age"].max()
describe()를 사용하여 DataFrame 의 숫자 데이터에 대한 간략한 개요를 얻을 수도 있습니다.
## 숫자 데이터 설명
df.describe()
요약
이 랩에서는 Pandas 패키지를 가져오고, DataFrame 을 생성하고, 열을 선택하고, 기본 통계를 수행하는 방법을 배웠습니다. Pandas 는 다양한 유형의 데이터를 처리할 수 있는 다재다능한 도구로, 데이터 분석 및 조작에 매우 적합합니다.