Pandas 데이터 조작 - Python 데이터 분석 및 조작

소개

이 랩에서는 Python 의 강력한 데이터 분석 및 조작 라이브러리인 Pandas 를 사용하여 데이터를 읽고, 쓰고, 조작하는 방법을 안내합니다. 이 연습을 위해 타이타닉 난파선 데이터 세트를 사용합니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단을 클릭하여 Notebook 탭으로 전환하여 연습을 위해 Jupyter Notebook에 액세스하십시오.

때로는 Jupyter Notebook 이 로딩을 완료하는 데 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한 사항으로 인해 작업의 유효성 검사는 자동화할 수 없습니다.

학습 중에 문제가 발생하면 언제든지 Labby 에게 문의하십시오. 세션 후 피드백을 제공해주시면 문제를 신속하게 해결해 드리겠습니다.

이것은 가이드 실험입니다. 학습과 실습을 돕기 위한 단계별 지침을 제공합니다.각 단계를 완료하고 실무 경험을 쌓기 위해 지침을 주의 깊게 따르세요. 과거 데이터에 따르면, 이것은 초급 레벨의 실험이며 완료율은 88%입니다.학습자들로부터 100%의 긍정적인 리뷰율을 받았습니다.

필요한 라이브러리 가져오기

먼저, 작업을 위해 필요한 라이브러리를 가져와야 합니다. 이 랩에서는 pandas 만 필요합니다.

## pandas 라이브러리 가져오기
import pandas as pd

CSV 파일에서 데이터 읽기

다음 단계는 CSV 파일에서 데이터를 읽는 것입니다. 이를 위해 pandas 의 read_csv 함수를 사용합니다.

## CSV 파일에서 데이터 읽기
titanic = pd.read_csv("data/titanic.csv")

데이터 확인

데이터를 읽은 후에는 데이터가 어떻게 보이는지 확인하는 것이 좋습니다. 데이터프레임의 처음 몇 행을 표시합니다.

## 데이터프레임의 처음 몇 행 표시
titanic.head()

데이터 타입 확인

데이터프레임의 dtypes 속성을 사용하여 각 열의 데이터 타입을 확인할 수 있습니다.

## 각 열의 데이터 타입 확인
titanic.dtypes

데이터를 Excel 로 쓰기

to_excel 메서드를 사용하여 데이터를 Excel 파일로 쓸 수도 있습니다. 데이터프레임을 Excel 파일로 저장해 보겠습니다.

## 데이터프레임을 Excel 파일로 저장
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)

Excel 에서 데이터 읽기

Excel 파일에서 데이터를 읽는 것은 CSV 파일에서 데이터를 읽는 것만큼 쉽습니다. pandas 의 read_excel 함수를 사용합니다.

## Excel 파일에서 데이터 읽기
titanic = pd.read_excel("titanic.xlsx", sheet_name="passengers")

데이터프레임 정보 확인

info 메서드는 데이터프레임의 기술적인 요약을 제공합니다. 이는 데이터 타입, null 이 아닌 값의 수, 그리고 메모리 사용량을 확인하는 데 유용할 수 있습니다.

## 데이터프레임 정보 확인
titanic.info()

요약

이 랩에서는 pandas 를 사용하여 데이터를 읽고 쓰는 방법과 데이터프레임의 정보를 확인하는 방법을 배웠습니다. Pandas 는 데이터를 처리하고 조작하기 위한 광범위한 기능을 제공하며, 이는 데이터 분석을 위한 강력한 도구로 만들어줍니다.