Команда Linux | Объединение файлов | Слияние данных

Введение

В ходе этой лабораторной работы вы научитесь использовать команду join в Linux для объединения данных из нескольких файлов. Мы смоделируем ситуацию, в которой вы работаете в отделе кадров компании и вам необходимо сопоставить информацию о сотрудниках из разных баз данных. Это практическое упражнение продемонстрирует мощь и гибкость команды join при выполнении задач по обработке данных.

Изучение файлов данных

Начнем с изучения содержимого наших файлов с данными сотрудников. У нас есть два файла: employees.txt и salaries.txt.

Для начала перейдите в каталог проекта:

cd /home/labex/project

Эта команда меняет ваш текущий рабочий каталог на /home/labex/project. Все последующие операции будут выполняться в этой папке.

Теперь давайте просмотрим содержимое файла employees.txt:

cat employees.txt

Команда cat выводит содержимое файла на экран. Вы должны увидеть результат, похожий на этот:

1001 John Engineering
1002 Sarah Marketing
1003 Mike Sales
1004 Emily HR
1005 David Finance

Каждая строка представляет сотрудника с его идентификатором (ID), именем и отделом.

Далее взглянем на файл salaries.txt:

cat salaries.txt

Вывод должен быть примерно таким:

Этот файл содержит идентификаторы сотрудников и соответствующие им зарплаты.

Эти файлы представляют собой отдельные базы данных, которые мы объединим с помощью команды join.

Базовая операция объединения

Теперь, когда мы понимаем структуру данных, воспользуемся командой join, чтобы объединить информацию из обоих файлов на основе идентификатора сотрудника.

Выполните следующую команду:

join employees.txt salaries.txt

Вы должны увидеть такой результат:

1001 John Engineering 75000
1002 Sarah Marketing 65000
1003 Mike Sales 70000
1004 Emily HR 60000
1005 David Finance 80000

Разберем, что именно произошло:

Команда join проанализировала первое поле (ID сотрудника) в обоих файлах.
При обнаружении совпадающих ID она объединила строки из обоих файлов.
В выводе отображается ID сотрудника, за которым следуют все поля из employees.txt, а затем все поля из salaries.txt (кроме ID, чтобы избежать дублирования).

Это дает нам полное представление об информации по каждому сотруднику в одной строке. Команда join особенно полезна, когда данные распределены по нескольким файлам, но вам нужно просмотреть или проанализировать их вместе.

Настройка формата вывода

Иногда нам может потребоваться изменить порядок полей в выводе или включить только определенные поля. Мы можем сделать это, указав номера полей после команды объединения.

Попробуйте выполнить эту команду:

join -o 1.2,1.3,2.2,1.1 employees.txt salaries.txt

Вы должны увидеть:

John Engineering 75000 1001
Sarah Marketing 65000 1002
Mike Sales 70000 1003
Emily HR 60000 1004
David Finance 80000 1005

Разберем опцию -o:

-o означает "output format" (формат вывода).
1.2 — второе поле из первого файла (имя).
1.3 — третье поле из первого файла (отдел).
2.2 — второе поле из второго файла (зарплата).
1.1 — первое поле из первого файла (ID сотрудника).

Это позволяет нам настраивать порядок информации в итоговом результате. Это особенно удобно, когда нужно перестроить данные для конкретного формата отчета или когда требуются только определенные поля из каждого файла.

Обработка несовпадающих записей

В реальных сценариях в одном файле могут быть записи, для которых нет соответствующих совпадений в другом файле. Давайте смоделируем это, добавив нового сотрудника, которому еще не назначена зарплата.

Добавьте этого сотрудника в employees.txt:

echo "1006 Alex IT" >> employees.txt

Оператор >> добавляет новую строку в конец файла, не перезаписывая существующее содержимое.

Теперь, если мы запустим базовую команду объединения:

join employees.txt salaries.txt

Вы заметите, что Alex не появляется в выводе, так как в файле salaries.txt нет соответствующей записи.

Чтобы включить несовпадающие записи, можно использовать опцию -a:

join -a 1 employees.txt salaries.txt

Теперь вы увидите Алекса в списке:

1001 John Engineering 75000
1002 Sarah Marketing 65000
1003 Mike Sales 70000
1004 Emily HR 60000
1005 David Finance 80000
1006 Alex IT

Опция -a 1 указывает команде join включить строки из первого файла (employees.txt), для которых не нашлось пары. Это полезно, когда вы хотите видеть все записи из одного файла, даже если для них нет данных в другом.

Объединение по произвольному полю

До сих пор мы объединяли файлы на основе первого поля (ID сотрудника). Но что, если нужно выполнить объединение по другому полю? Это может пригодиться, если файлы организованы иначе или если нужно сопоставить данные по общему признаку, отличному от ID.

Создадим новый файл departments.txt с кодами отделов:

cat << EOF > departments.txt
Engineering ENG
Marketing MKT
Sales SLS
HR HRS
Finance FIN
IT ITS
EOF

Эта команда создает файл departments.txt, содержащий названия отделов и их соответствующие коды.

Теперь объединим его с файлом employees.txt на основе названия отдела:

join -1 3 -2 1 employees.txt departments.txt

Вы должны увидеть:

Engineering 1001 John ENG
Marketing 1002 Sarah MKT
Sales 1003 Mike SLS
HR 1004 Emily HRS
Finance 1005 David FIN
IT 1006 Alex ITS

Разберем параметры команды:

-1 3 указывает join использовать третье поле из первого файла (employees.txt) в качестве ключа объединения.
-2 1 указывает использовать первое поле из второго файла (departments.txt) в качестве ключа объединения.

Это позволяет объединять файлы по любому общему полю, а не только по первому. Это крайне полезно, когда файлы имеют разную структуру, но содержат общую информацию.

Резюме

В этой лабораторной работе вы научились использовать команду join в Linux для слияния данных из нескольких файлов. Мы изучили несколько ключевых возможностей join:

Базовое объединение двух файлов по общему полю.
Настройка порядка вывода с помощью опции -o.
Включение несовпадающих записей с помощью опции -a.
Объединение по полям, отличным от первой колонки, с помощью опций -1 и -2.

Дополнительные опции join, не затронутые в этой работе:

-t CHAR: Использовать символ CHAR в качестве разделителя полей ввода и вывода.
-i: Игнорировать регистр при сравнении полей.
-e STRING: Заменять отсутствующие поля ввода строкой STRING.
-j FIELD: Эквивалентно '-1 FIELD -2 FIELD'.
-v FILE_NUMBER: Аналогично -a FILE_NUMBER, но выводит только несовпадающие строки (скрывает объединенные).

Команда join — это мощный инструмент для обработки данных в Linux, позволяющий эффективно комбинировать информацию из различных источников. Продолжая работать с данными в среде Linux, помните, что join может стать ценным помощником при слиянии и анализе информации из разных файлов.

Команда Linux join: Объединение файлов