소개
이 랩에서는 Python 의 강력한 데이터 분석 및 조작 라이브러리인 Pandas 를 사용하여 데이터를 읽고, 쓰고, 조작하는 방법을 안내합니다. 이 연습을 위해 타이타닉 난파선 데이터 세트를 사용합니다.
VM 팁
VM 시작이 완료되면 왼쪽 상단을 클릭하여 Notebook 탭으로 전환하여 연습을 위해 Jupyter Notebook에 액세스하십시오.
때로는 Jupyter Notebook 이 로딩을 완료하는 데 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한 사항으로 인해 작업의 유효성 검사는 자동화할 수 없습니다.
학습 중에 문제가 발생하면 언제든지 Labby 에게 문의하십시오. 세션 후 피드백을 제공해주시면 문제를 신속하게 해결해 드리겠습니다.
필요한 라이브러리 가져오기
먼저, 작업을 위해 필요한 라이브러리를 가져와야 합니다. 이 랩에서는 pandas 만 필요합니다.
## pandas 라이브러리 가져오기
import pandas as pd
CSV 파일에서 데이터 읽기
다음 단계는 CSV 파일에서 데이터를 읽는 것입니다. 이를 위해 pandas 의 read_csv 함수를 사용합니다.
## CSV 파일에서 데이터 읽기
titanic = pd.read_csv("data/titanic.csv")
데이터 확인
데이터를 읽은 후에는 데이터가 어떻게 보이는지 확인하는 것이 좋습니다. 데이터프레임의 처음 몇 행을 표시합니다.
## 데이터프레임의 처음 몇 행 표시
titanic.head()
데이터 타입 확인
데이터프레임의 dtypes 속성을 사용하여 각 열의 데이터 타입을 확인할 수 있습니다.
## 각 열의 데이터 타입 확인
titanic.dtypes
데이터를 Excel 로 쓰기
to_excel 메서드를 사용하여 데이터를 Excel 파일로 쓸 수도 있습니다. 데이터프레임을 Excel 파일로 저장해 보겠습니다.
## 데이터프레임을 Excel 파일로 저장
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)
Excel 에서 데이터 읽기
Excel 파일에서 데이터를 읽는 것은 CSV 파일에서 데이터를 읽는 것만큼 쉽습니다. pandas 의 read_excel 함수를 사용합니다.
## Excel 파일에서 데이터 읽기
titanic = pd.read_excel("titanic.xlsx", sheet_name="passengers")
데이터프레임 정보 확인
info 메서드는 데이터프레임의 기술적인 요약을 제공합니다. 이는 데이터 타입, null 이 아닌 값의 수, 그리고 메모리 사용량을 확인하는 데 유용할 수 있습니다.
## 데이터프레임 정보 확인
titanic.info()
요약
이 랩에서는 pandas 를 사용하여 데이터를 읽고 쓰는 방법과 데이터프레임의 정보를 확인하는 방법을 배웠습니다. Pandas 는 데이터를 처리하고 조작하기 위한 광범위한 기능을 제공하며, 이는 데이터 분석을 위한 강력한 도구로 만들어줍니다.