Pandas 로 데이터 마스터하기: 입문 가이드 - 파이썬 데이터 분석

소개

이 랩에서는 Python 의 강력한 데이터 조작 라이브러리인 pandas 의 기본 사항을 소개합니다. pandas 를 가져오기, 데이터 생성 및 보기, 데이터 선택, 연산 등 다양한 작업을 안내해 드립니다.

VM 팁

VM 시작이 완료되면, 왼쪽 상단을 클릭하여 Notebook 탭으로 전환하여 실습을 위해 Jupyter Notebook에 접속하십시오.

때로는 Jupyter Notebook 이 로딩을 완료하는 데 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한 사항으로 인해 작업의 유효성 검사는 자동화될 수 없습니다.

학습 중 문제가 발생하면 Labby 에게 문의하십시오. 세션 후 피드백을 제공해주시면 문제를 신속하게 해결해 드리겠습니다.

이것은 가이드 실험입니다. 학습과 실습을 돕기 위한 단계별 지침을 제공합니다.각 단계를 완료하고 실무 경험을 쌓기 위해 지침을 주의 깊게 따르세요. 과거 데이터에 따르면, 이것은 초급 레벨의 실험이며 완료율은 83%입니다.학습자들로부터 100%의 긍정적인 리뷰율을 받았습니다.

Pandas 및 Numpy 가져오기

먼저, pandas 와 numpy 패키지를 가져와야 합니다. Pandas 는 강력한 데이터 조작 라이브러리이며, numpy 는 수학적 연산에 사용됩니다.

## 필요한 라이브러리 가져오기
import numpy as np
import pandas as pd

객체 생성

값 목록을 전달하여 Series를 생성합니다. pandas 는 기본 정수 인덱스를 생성합니다.

## pandas series 생성
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

데이터프레임 생성

datetime 인덱스와 레이블이 지정된 열을 사용하여 numpy 배열을 전달하여 DataFrame을 생성할 수 있습니다.

## pandas dataframe 생성
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

데이터 보기

head() 및 tail() 메서드를 사용하여 데이터프레임의 상위 및 하위 행을 각각 볼 수 있습니다.

## 상위 행 보기
df.head()

## 하위 행 보기
df.tail(3)

데이터 선택

레이블 또는 위치를 사용하여 데이터를 선택할 수 있습니다.

## 단일 열 선택
df["A"]

## 위치를 통해 선택
df.iloc[3]

데이터 연산

데이터프레임에 정렬, 함수 적용 등과 같은 연산을 수행할 수 있습니다.

## 축을 기준으로 정렬
df.sort_index(axis=1, ascending=False)

## 데이터에 함수 적용
df.apply(np.cumsum)

결측 데이터 처리

Pandas 는 데이터프레임에서 결측 데이터를 처리하는 메서드를 제공합니다.

## 결측 데이터 채우기
df.fillna(value=5)

## 값이 nan 인 위치의 boolean 마스크 얻기
pd.isna(df)

데이터 시각화

Pandas 는 데이터를 시각화하기 위해 matplotlib 를 사용합니다.

## 데이터 시각화
df.plot()

데이터 저장 및 로드

Pandas 는 csv, excel, hdf5 등 다양한 형식으로 데이터를 저장하고 로드하는 메서드를 제공합니다.

## 데이터를 csv 파일로 저장
df.to_csv("foo.csv")

## 데이터를 csv 파일에서 로드
pd.read_csv("foo.csv")

요약

이 랩에서는 pandas 의 기본 사항을 다루었습니다. 여기에는 데이터 생성 및 보기, 데이터 선택 및 조작 방법, 데이터 저장 및 로드 방법 등이 포함됩니다. 또한 결측 데이터 처리 방법과 데이터 시각화 방법도 배웠습니다. 이는 데이터 분석을 위한 pandas 의 추가 탐구를 위한 견고한 기반을 제공할 것입니다.

Pandas 입문

소개