Мастерство в использовании метода duplicated() для DataFrame в Pandas

Введение

В этом практическом занятии мы узнаем о методе duplicated() библиотеки Pandas для Python. Метод duplicated() используется для поиска дублирующихся строк в DataFrame.

Советы по работе с ВМ

После запуска виртуальной машины кликните в левом верхнем углу, чтобы переключиться на вкладку Notebook и приступить к практике в Jupyter Notebook.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook полностью загрузится. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импортировать необходимые библиотеки

Сначала нам нужно импортировать библиотеку pandas под именем pd.

import pandas as pd

Создать DataFrame

Далее, создадим DataFrame, с которым будем работать. Для этого используем следующий пример DataFrame:

df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
                   'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})

Найти дублирующиеся строки

Для поиска дублирующихся строк в DataFrame мы можем использовать метод duplicated(). По умолчанию он учитывает все столбцы для определения дубликатов. Возвращает булеву Series, где True означает дублирующиеся строки, а False - уникальные строки.

duplicates = df.duplicated()
print(duplicates)

Указать столбцы для идентификации дубликатов

Если мы хотим учитывать только определенные столбцы для определения дубликатов, мы можем передать метку(и) столбца(ов) в параметр subset метода duplicated().

duplicates_subset = df.duplicated(subset=['Skills'])
print(duplicates_subset)

Указать пометку дубликата

Параметр keep метода duplicated() определяет, как дубликаты должны быть помечены. По умолчанию он установлен на 'first', что означает, что все дубликаты будут помечены как True, кроме первого вхождения. Мы также можем установить его на 'last' или False, чтобы помечать дубликаты по-разному.

duplicates_keep_last = df.duplicated(keep='last')
print(duplicates_keep_last)

duplicates_keep_false = df.duplicated(keep=False)
print(duplicates_keep_false)

Резюме

В этом практическом занятии мы узнали, как использовать метод duplicated() в Pandas для поиска дублирующихся строк в DataFrame. Мы увидели, как определить дубликаты на основе определенных столбцов, указать метку для дубликата и получить булеву Series, представляющую дублирующиеся строки. Метод duplicated() - это полезный инструмент для очистки данных и идентификации дублирующихся данных.

Метод duplicated() для DataFrame в Pandas