Удаление дубликатов записей
Иногда в студенческих записях могут быть дубликаты, возможно, из - за ошибок при вводе данных или множественных отправок. Давайте научимся удалять эти дубликаты.
Сначала посмотрим на файл, в котором могут быть дубликаты:
cat ~/project/student_clubs.txt
Вы, возможно, увидите что - то вроде этого:
Alice Johnson:Chess Club
Bob Smith:Debate Team
Charlie Brown:Chess Club
David Lee:Science Club
Eve Wilson:Debate Team
Alice Johnson:Chess Club
Bob Smith:Science Club
Для сортировки этого списка и удаления дубликатов мы будем использовать опцию -u
:
sort -u ~/project/student_clubs.txt
Эта команда отобразит отсортированный список уникальных записей о принадлежности студентов к клубам:
Alice Johnson:Chess Club
Bob Smith:Debate Team
Bob Smith:Science Club
Charlie Brown:Chess Club
David Lee:Science Club
Eve Wilson:Debate Team
Опция -u
сообщает команде sort
выводить только первую строку из группы одинаковых строк. Другими словами, она удаляет дубликаты строк после сортировки. Это особенно полезно, когда вам нужно создать список уникальных записей или когда вы пытаетесь выявить и устранить избыточные данные.
Обратите внимание, что "Bob Smith" встречается дважды, потому что он состоит в двух разных клубах - эти записи не считаются дубликатами, так как вся строка различна.