중복 항목 정의
이 단계에서는 프로그래밍 맥락에서 중복 항목이 무엇인지, 그리고 Python 에서 이를 식별하는 방법을 살펴봅니다. 중복 항목을 이해하는 것은 데이터 정리, 분석 및 최적화에 매우 중요합니다.
중복 항목이란 무엇인가요?
중복 항목은 데이터 세트 또는 항목 모음 내에서 반복되는 값입니다. 예를 들어, 리스트 [1, 2, 2, 3, 4, 4, 4]에서 숫자 2와 4는 두 번 이상 나타나므로 중복 항목입니다.
중복 항목을 식별하는 이유는 무엇인가요?
중복 항목을 식별하고 처리하는 것은 다음과 같은 여러 가지 이유로 중요합니다.
- 데이터 정확성: 중복 항목은 분석 결과를 왜곡하고 잘못된 결론으로 이어질 수 있습니다.
- 저장 효율성: 중복 항목을 저장하면 공간과 리소스가 낭비됩니다.
- 성능: 중복 항목을 처리하면 알고리즘과 애플리케이션의 속도가 느려질 수 있습니다.
Python 에서 중복 항목 식별하기
리스트에서 중복 항목을 식별하는 Python 스크립트를 만들어 보겠습니다.
-
VS Code 편집기를 엽니다.
-
~/project 디렉토리에 duplicates.py라는 새 파일을 만듭니다.
~/project/duplicates.py
-
duplicates.py 파일에 다음 코드를 추가합니다.
def find_duplicates(data):
seen = set()
duplicates = []
for item in data:
if item in seen:
duplicates.append(item)
else:
seen.add(item)
return duplicates
numbers = [1, 2, 2, 3, 4, 4, 4, 5]
duplicate_numbers = find_duplicates(numbers)
print("Original list:", numbers)
print("Duplicate numbers:", duplicate_numbers)
설명:
find_duplicates 함수는 리스트 data를 입력으로 받습니다.
- 이 함수는 지금까지 발견한 항목을 추적하기 위해
seen이라는 set을 사용합니다. 세트는 고유한 값만 저장하므로 유용합니다.
data 리스트를 반복합니다. 항목이 이미 seen 세트에 있으면 중복 항목임을 의미하므로 duplicates 리스트에 추가됩니다. 그렇지 않으면 항목이 seen 세트에 추가됩니다.
- 마지막으로, 함수는
duplicates 리스트를 반환합니다.
-
터미널에서 다음 명령을 사용하여 스크립트를 실행합니다.
python duplicates.py
다음 출력을 볼 수 있습니다.
Original list: [1, 2, 2, 3, 4, 4, 4, 5]
Duplicate numbers: [2, 4, 4]
이 출력은 원래 리스트와 리스트에서 발견된 중복 숫자를 보여줍니다.