Pandas DataFrame isnull 메서드

Beginner

소개

이 랩에서는 pandas 의 DataFrame.isnull() 메서드를 사용하는 방법을 배웁니다. 이 메서드는 DataFrame 에서 누락된 값을 감지하는 데 사용됩니다. 이 메서드를 DataFrame 에 적용하면 부울 값의 DataFrame 을 반환하며, 여기서 True 는 요소가 null 값임을 나타내고 False 는 요소가 null 값이 아님을 나타냅니다. 이 메서드는 빈 문자열이나 numpy.inf를 null 값으로 간주하지 않는다는 점에 유의해야 합니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단을 클릭하여 Notebook 탭으로 전환하여 실습을 위해 Jupyter Notebook에 액세스하십시오.

때로는 Jupyter Notebook 이 로딩을 완료하는 데 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사는 자동화될 수 없습니다.

학습 중에 문제가 발생하면 언제든지 Labby 에게 문의하십시오. 세션 후 피드백을 제공해주시면 문제를 즉시 해결해 드리겠습니다.

DataFrame 생성

몇 가지 누락된 값을 가진 DataFrame 을 생성하는 것으로 시작해 보겠습니다. pandas 의 pd.DataFrame 함수와 numpy 의 np.nan 상수를 사용합니다.

## pandas 를 pd 로 임포트
import pandas as pd
## numpy 를 np 로 임포트
import numpy as np

## DataFrame 생성
df = pd.DataFrame([(0.0, np.nan, -1.0, 1.0), (np.nan, 2.0, np.nan, np.nan), (2.0, 3.0, np.nan, 9.0)], columns=list('abcd'))

이렇게 하면 네 개의 열 ('a', 'b', 'c', 'd') 과 세 개의 행이 있는 DataFrame 이 생성됩니다. DataFrame 에는 np.nan으로 표시된 누락된 값이 포함되어 있습니다.

누락된 값 감지

이제 DataFrame.isnull() 메서드를 사용하여 DataFrame 에서 누락된 값을 감지합니다.

## DataFrame 에서 누락된 값 감지
missing_values = df.isnull()

## 누락된 값이 있는 DataFrame 출력
print(missing_values)

이렇게 하면 원래 DataFrame 의 각 요소에 대한 부울 값으로 구성된 DataFrame 이 반환됩니다. True 값은 해당 요소가 누락된 값 (np.nan) 임을 나타내고, False 값은 요소가 누락된 값이 아님을 나타냅니다.

빈 문자열을 누락된 값으로 간주

기본적으로 DataFrame.isnull() 메서드는 빈 문자열을 누락된 값으로 간주하지 않습니다. 빈 문자열을 누락된 값으로 간주하려면 메서드를 사용하기 전에 np.nan으로 대체할 수 있습니다.

## 빈 문자열을 np.nan 으로 대체
df = df.replace('', np.nan)

## DataFrame 에서 누락된 값 감지
missing_values = df.isnull()

## 누락된 값이 있는 DataFrame 출력
print(missing_values)

이제 빈 문자열을 누락된 값으로 간주하고 누락된 값의 존재를 나타내는 부울 값이 있는 DataFrame 을 반환합니다.

요약

이 랩에서는 pandas 에서 DataFrame.isnull() 메서드를 사용하여 DataFrame 에서 누락된 값을 감지하는 방법을 배웠습니다. True는 누락된 값을 나타내고 False는 누락되지 않은 값을 나타내는 부울 값의 DataFrame 을 반환하는 것을 확인했습니다. 또한 기본적으로 빈 문자열은 누락된 값으로 간주되지 않지만, 메서드를 사용하기 전에 np.nan으로 대체하여 누락된 값으로 처리할 수 있다는 것을 확인했습니다. 이 메서드는 데이터 분석 및 머신 러닝 프로젝트에서 데이터 정리 및 전처리 작업에 유용합니다.