Pandas DataFrame 중복 메서드 마스터하기 - 데이터 중복 처리 방법

소개

이 랩에서는 Python 의 Pandas 라이브러리에 있는 duplicated() 메서드에 대해 배우겠습니다. duplicated() 메서드는 DataFrame 에서 중복된 행을 찾는 데 사용됩니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단을 클릭하여 Notebook 탭으로 전환하여 실습을 위해 Jupyter Notebook에 액세스하십시오.

때로는 Jupyter Notebook 이 로딩을 완료하는 데 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한 사항으로 인해 작업의 유효성 검사를 자동화할 수 없습니다.

학습 중에 문제가 발생하면 언제든지 Labby 에게 문의하십시오. 세션 후 피드백을 제공해주시면 문제를 즉시 해결해 드리겠습니다.

필요한 라이브러리 가져오기

먼저, pandas 라이브러리를 pd로 가져와야 합니다.

import pandas as pd

DataFrame 생성

다음으로, 작업할 DataFrame 을 생성해 보겠습니다. 다음 예제 DataFrame 을 사용합니다.

df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
                   'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})

중복 행 찾기

DataFrame 에서 중복된 행을 찾기 위해 duplicated() 메서드를 사용할 수 있습니다. 기본적으로 모든 열을 고려하여 중복을 식별합니다. 중복된 행은 True, 고유한 행은 False를 나타내는 부울 (boolean) Series 를 반환합니다.

duplicates = df.duplicated()
print(duplicates)

중복 식별을 위한 열 지정

중복 식별을 위해 특정 열만 고려하려면 duplicated() 메서드의 subset 매개변수에 열 레이블을 전달할 수 있습니다.

duplicates_subset = df.duplicated(subset=['Skills'])
print(duplicates_subset)

중복 표시 설정

duplicated() 메서드의 keep 매개변수는 중복을 어떻게 표시할지 결정합니다. 기본적으로 'first'로 설정되어 있으며, 첫 번째 발생을 제외한 모든 중복을 True로 표시합니다. 또한 중복을 다르게 표시하기 위해 'last' 또는 False로 설정할 수 있습니다.

duplicates_keep_last = df.duplicated(keep='last')
print(duplicates_keep_last)

duplicates_keep_false = df.duplicated(keep=False)
print(duplicates_keep_false)

요약

이 랩에서는 Pandas 의 duplicated() 메서드를 사용하여 DataFrame 에서 중복된 행을 찾는 방법을 배웠습니다. 특정 열을 기반으로 중복을 식별하고, 중복 표시를 지정하며, 중복된 행을 나타내는 부울 (boolean) Series 를 얻는 방법을 살펴보았습니다. duplicated() 메서드는 데이터 정리 및 중복된 데이터를 식별하는 데 유용한 도구입니다.