Pandas 데이터 구조 다루기

Beginner

This tutorial is from open-source community. Access the source code

소개

Pandas 는 데이터 조작 및 분석을 위한 강력한 Python 라이브러리입니다. Pandas 의 기본적인 데이터 구조인 Series 와 DataFrame 을 사용하면 구조화된 데이터를 저장하고 조작할 수 있습니다. 이 랩에서는 이러한 데이터 구조를 생성부터 조작, 정렬까지 단계별로 안내합니다.

VM 팁

VM 시작이 완료되면, 왼쪽 상단을 클릭하여 Notebook 탭으로 전환하여 실습을 위해 Jupyter Notebook에 접속하십시오.

때로는 Jupyter Notebook 이 로딩을 완료하는 데 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한 사항으로 인해 작업의 유효성 검사는 자동화될 수 없습니다.

학습 중에 문제가 발생하면 언제든지 Labby 에게 문의하십시오. 세션 후 피드백을 제공해주시면 문제를 신속하게 해결해 드리겠습니다.

필요한 라이브러리 임포트

시작하기 전에 필요한 라이브러리를 임포트하겠습니다. 이 랩에서는 NumPy 와 pandas 가 필요합니다.

## Import necessary libraries
import numpy as np
import pandas as pd

Series 생성

가장 먼저 살펴볼 데이터 구조는 Series 입니다. Series 는 1 차원 레이블 배열입니다. 정수, 문자열, 부동 소수점 숫자 및 Python 객체를 포함한 모든 데이터 유형을 저장할 수 있습니다.

## Create a Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])

DataFrame 생성

다른 기본적인 데이터 구조는 DataFrame 입니다. DataFrame 은 잠재적으로 서로 다른 유형의 열을 가진 2 차원 레이블 데이터 구조입니다.

## Create a DataFrame
df = pd.DataFrame(np.random.randn(6, 4), columns=list('ABCD'))

DataFrame 열 조작

DataFrame 열에 대해 다양한 작업을 수행할 수 있습니다. 예를 들어, 열을 선택하고, 새 열을 추가하거나, 열을 삭제할 수 있습니다.

## Select column A
df['A']

## Add a new column E
df['E'] = pd.Series(np.random.randn(6), index=df.index)

## Delete column B
del df['B']

데이터 정렬 및 산술 연산

데이터 정렬은 pandas 의 중요한 기능입니다. 두 객체에 대해 연산을 수행할 때, pandas 는 연관된 레이블을 기준으로 정렬합니다.

## Create two DataFrames
df1 = pd.DataFrame(np.random.randn(10, 4), columns=['A', 'B', 'C', 'D'])
df2 = pd.DataFrame(np.random.randn(7, 3), columns=['A', 'B', 'C'])

## Perform addition operation
result = df1 + df2

NumPy 함수 사용

대부분의 NumPy 함수는 Series 및 DataFrame 객체에서 직접 호출할 수 있으며, 데이터 조작 및 분석에 많은 유연성을 제공합니다.

## Apply the exponential function to a DataFrame
np.exp(df)

요약

이 랩에서는 pandas 의 두 가지 기본적인 데이터 구조인 Series 와 DataFrame 에 대해 배웠습니다. 이러한 구조를 생성하고 조작하는 방법과 NumPy 함수를 직접 사용하는 방법을 살펴보았습니다. 또한 직관적인 데이터 조작 및 분석을 가능하게 하는 pandas 의 강력한 기능인 데이터 정렬 (data alignment) 의 개념도 탐구했습니다.