소개
이 랩에서는 Python 의 강력한 데이터 조작 라이브러리인 pandas 의 기본 사항을 소개합니다. pandas 를 가져오기, 데이터 생성 및 보기, 데이터 선택, 연산 등 다양한 작업을 안내해 드립니다.
VM 팁
VM 시작이 완료되면, 왼쪽 상단을 클릭하여 Notebook 탭으로 전환하여 실습을 위해 Jupyter Notebook에 접속하십시오.
때로는 Jupyter Notebook 이 로딩을 완료하는 데 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한 사항으로 인해 작업의 유효성 검사는 자동화될 수 없습니다.
학습 중 문제가 발생하면 Labby 에게 문의하십시오. 세션 후 피드백을 제공해주시면 문제를 신속하게 해결해 드리겠습니다.
Pandas 및 Numpy 가져오기
먼저, pandas 와 numpy 패키지를 가져와야 합니다. Pandas 는 강력한 데이터 조작 라이브러리이며, numpy 는 수학적 연산에 사용됩니다.
## 필요한 라이브러리 가져오기
import numpy as np
import pandas as pd
객체 생성
값 목록을 전달하여 Series를 생성합니다. pandas 는 기본 정수 인덱스를 생성합니다.
## pandas series 생성
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s
데이터프레임 생성
datetime 인덱스와 레이블이 지정된 열을 사용하여 numpy 배열을 전달하여 DataFrame을 생성할 수 있습니다.
## pandas dataframe 생성
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df
데이터 보기
head() 및 tail() 메서드를 사용하여 데이터프레임의 상위 및 하위 행을 각각 볼 수 있습니다.
## 상위 행 보기
df.head()
## 하위 행 보기
df.tail(3)
데이터 선택
레이블 또는 위치를 사용하여 데이터를 선택할 수 있습니다.
## 단일 열 선택
df["A"]
## 위치를 통해 선택
df.iloc[3]
데이터 연산
데이터프레임에 정렬, 함수 적용 등과 같은 연산을 수행할 수 있습니다.
## 축을 기준으로 정렬
df.sort_index(axis=1, ascending=False)
## 데이터에 함수 적용
df.apply(np.cumsum)
결측 데이터 처리
Pandas 는 데이터프레임에서 결측 데이터를 처리하는 메서드를 제공합니다.
## 결측 데이터 채우기
df.fillna(value=5)
## 값이 nan 인 위치의 boolean 마스크 얻기
pd.isna(df)
데이터 시각화
Pandas 는 데이터를 시각화하기 위해 matplotlib 를 사용합니다.
## 데이터 시각화
df.plot()
데이터 저장 및 로드
Pandas 는 csv, excel, hdf5 등 다양한 형식으로 데이터를 저장하고 로드하는 메서드를 제공합니다.
## 데이터를 csv 파일로 저장
df.to_csv("foo.csv")
## 데이터를 csv 파일에서 로드
pd.read_csv("foo.csv")
요약
이 랩에서는 pandas 의 기본 사항을 다루었습니다. 여기에는 데이터 생성 및 보기, 데이터 선택 및 조작 방법, 데이터 저장 및 로드 방법 등이 포함됩니다. 또한 결측 데이터 처리 방법과 데이터 시각화 방법도 배웠습니다. 이는 데이터 분석을 위한 pandas 의 추가 탐구를 위한 견고한 기반을 제공할 것입니다.