Метод drop_duplicates() для DataFrame библиотеки Pandas

Beginner

Введение

В этом практическом занятии мы научимся использовать метод drop_duplicates() в DataFrame библиотеки Pandas для удаления дублирующихся строк. Мы рассмотрим шаги, необходимые для использования этого метода, с примерами.

Советы по работе с ВМ

После запуска виртуальной машины кликните в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook полностью загрузится. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импортируем необходимые библиотеки

Сначала нам нужно импортировать необходимые библиотеки. В этом практическом занятии мы будем использовать библиотеку Pandas.

import pandas as pd

Создаем DataFrame

Далее нам нужно создать DataFrame, содержащий дублирующиеся строки. Мы будем использовать функцию pd.DataFrame() для создания DataFrame.

df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
                   'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})
print(df)

Удаляем дублирующиеся строки

Теперь мы можем использовать метод drop_duplicates() для удаления дублирующихся строк из DataFrame. Этот метод вернет новый DataFrame с удаленными дублирующимися строками.

df = df.drop_duplicates()
print("После удаления дублирующихся строк:")
print(df)

Резюме

В этом практическом занятии мы научились использовать метод drop_duplicates() в DataFrame библиотеки Pandas для удаления дублирующихся строк. Задав столбцы для рассмотрения или дубликаты для сохранения, мы можем настроить, как метод обрабатывает дубликаты.

Следуя этим шагам, вы можете эффективно удалить дублирующиеся строки из DataFrame библиотеки Pandas с использованием метода drop_duplicates().