Pandas 를 사용한 타이타닉 승객 데이터 분석

Beginner

This tutorial is from open-source community. Access the source code

소개

이 랩에서는 Python 의 Pandas 라이브러리를 사용하여 데이터의 요약 통계를 계산하는 방법을 배웁니다. 타이타닉 난파선 승객에 대한 데이터를 담고 있는 타이타닉 데이터셋을 사용합니다. 요약 통계, 집계 통계를 계산하고 범주별 레코드 수를 세는 방법을 배웁니다.

VM 팁

VM 시작이 완료되면, 왼쪽 상단을 클릭하여 Notebook 탭으로 전환하여 실습을 위해 Jupyter Notebook에 접속하십시오.

때로는 Jupyter Notebook 이 로딩을 완료하는 데 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사는 자동화될 수 없습니다.

학습 중 문제가 발생하면 언제든지 Labby 에게 문의하십시오. 세션 후 피드백을 제공해주시면 문제를 신속하게 해결해 드리겠습니다.

이것은 가이드 실험입니다. 학습과 실습을 돕기 위한 단계별 지침을 제공합니다.각 단계를 완료하고 실무 경험을 쌓기 위해 지침을 주의 깊게 따르세요. 과거 데이터에 따르면, 이것은 초급 레벨의 실험이며 완료율은 96%입니다.학습자들로부터 100%의 긍정적인 리뷰율을 받았습니다.

데이터셋 가져오기

첫 번째 단계는 사용할 데이터셋을 가져오는 것입니다.

## pandas 라이브러리 가져오기
import pandas as pd

## 데이터셋 읽기
titanic = pd.read_csv("data/titanic.csv")

## 데이터셋의 처음 5 개 행 표시
titanic.head()

요약 통계 계산

이 단계에서는 타이타닉 데이터셋에 대한 요약 통계를 계산합니다.

## 타이타닉 승객의 평균 나이 계산
average_age = titanic["Age"].mean()
## 결과 출력
print(f"타이타닉 승객의 평균 나이는 {average_age}입니다")

## 타이타닉 승객의 중앙값 나이 및 티켓 요금 계산
median_age_fare = titanic[["Age", "Fare"]].median()
## 결과 출력
print(f"타이타닉 승객의 중앙값 나이 및 티켓 요금은 {median_age_fare}입니다: {median_age_fare}")

범주별 통계 집계

다음으로, 범주별로 그룹화된 통계를 집계하는 방법을 배우겠습니다.

## 남성 대 여성 타이타닉 승객의 평균 나이 계산
average_age_sex = titanic[["Sex", "Age"]].groupby("Sex").mean()
## 결과 출력
print(f"남성 대 여성 타이타닉 승객의 평균 나이는 {average_age_sex}입니다")

## 각 성별 및 객실 등급 조합에 대한 평균 티켓 요금 계산
mean_fare_sex_class = titanic.groupby(["Sex", "Pclass"])["Fare"].mean()
## 결과 출력
print(f"각 성별 및 객실 등급 조합에 대한 평균 티켓 요금은 {mean_fare_sex_class}입니다")

범주별 레코드 수 계산

마지막으로, 범주별 레코드 수를 계산합니다.

## 각 객실 등급의 승객 수 계산
passengers_per_class = titanic["Pclass"].value_counts()
## 결과 출력
print(f"각 객실 등급의 승객 수는 {passengers_per_class}입니다")

요약

이 랩에서는 Python 의 Pandas 라이브러리를 사용하여 요약 통계를 계산하고, 통계를 집계하며, 범주별 레코드 수를 계산하는 방법을 배웠습니다. 타이타닉 데이터셋을 사용하여 이러한 작업을 수행했습니다. 이러한 기술은 데이터 분석의 기본이며 모든 데이터셋에 적용할 수 있습니다.