Введение
В сердце Сахары一队考古学家偶然发现了一座古埃及金字塔,它隐藏在金色的沙子下已有数千年之久。关于一位冒险进入墓室深处的被诅咒探险家的传闻像野火一样蔓延,点燃了你的好奇心。作为一名熟练的数据分析师,你被赋予了一项任务,即利用 Hadoop 和 Hive 的力量揭开这个传说背后的真相。
你的任务有两个方面:第一,处理大量的考古记录数据集,揭开关于被诅咒探险家的身份和命运的线索。第二,分析从墓室中 recovered 的文物清单,揭示建造金字塔的神秘文明。
Изучение археологических записей
В этом шаге мы углубимся в археологические записи с использованием Hive и предложения where для фильтрации и анализа данных.
- Запустите среду Hadoop, выполнив следующую команду в терминале:
su - hadoop
- Запустите Hive shell, выполнив следующую команду:
hive
- Создайте новую таблицу Hive под названием
archaeological_recordsдля хранения набора данных:
CREATE TABLE archaeological_records (
record_id INT,
site_name STRING,
discovery_date DATE,
description STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
- Загрузите данные в таблицу
archaeological_recordsиз файла/home/hadoop/records.csv:
LOAD DATA LOCAL INPATH '/home/hadoop/records.csv' OVERWRITE INTO TABLE archaeological_records;
- Используйте предложение
whereдля фильтрации записей, связанных с местом, где был проклятый исследователь:
SELECT *
FROM archaeological_records
WHERE site_name = 'Pyramid of Khufu';
Этот запрос выведет все записи, связанные с местом "Пирамида Хефрана", помагая вам сузить поиск подсказок.
Анализ инвентаря артефактов
Теперь, когда мы сузили записи, давайте проанализируем инвентарь артефактов, найденных на месте, где был проклятый исследователь.
- Создайте новую таблицу Hive под названием
artifact_inventoryдля хранения данных об артефактах:
CREATE TABLE artifact_inventory (
artifact_id INT,
artifact_name STRING,
material STRING,
site_name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
- Загрузите данные в таблицу
artifact_inventoryиз файла/home/hadoop/artifacts.csv:
LOAD DATA LOCAL INPATH '/home/hadoop/artifacts.csv' OVERWRITE INTO TABLE artifact_inventory;
- Используйте предложение
whereдля фильтрации артефактов, найденных на месте "Пирамида Хефрана":
SELECT artifact_name, material
FROM artifact_inventory
WHERE site_name = 'Pyramid of Khufu';
Этот запрос выведет имена и материалы артефактов, найденных на месте, где был проклятый исследователь, предоставляя ценные сведения о цивилизации, которая построила пирамиду.
Раскрытие личности проклятого исследователя
С археологическими записями и инвентарем артефактов под рукой, настало время разгадать тайну личности проклятого исследователя.
- Объедините таблицы
archaeological_recordsиartifact_inventoryпо столбцуsite_name:
CREATE TABLE result_1
AS
SELECT ar.record_id, ar.description, ai.artifact_name
FROM archaeological_records ar
JOIN artifact_inventory ai
ON ar.site_name = ai.site_name
WHERE ar.site_name = 'Pyramid of Khufu';
SELECT * FROM result_1;
Этот запрос будет объединять археологические записи и информацию об артефактах для места "Пирамида Хефрана", потенциально раскрывая подсказки о личности и судьбе проклятого исследователя.
- Используйте предложение
whereдля фильтрации объединенных данных на основе ключевых слов или шаблонов, связанных с проклятым исследователем:
CREATE TABLE result_2
AS
SELECT ar.record_id, ar.description, ai.artifact_name
FROM archaeological_records ar
JOIN artifact_inventory ai
ON ar.site_name = ai.site_name
WHERE ar.site_name = 'Pyramid of Khufu'
AND ar.description LIKE '%cursed explorer%';
SELECT * FROM result_2;
Этот запрос будет отображать только записи и артефакты, которые упоминают "проклятого исследователя", помогая вам собрать пазл.
Резюме
В этом лабе мы исследовали силу Hadoop Hive и предложение where, чтобы разгадать тайну проклятого исследователя, который ventured into an ancient Egyptian pyramid. Анализируя археологические записи и инвентари артефактов, мы смогли отфильтровать и извлечь соответствующие данные, в конечном итоге раскрывая подсказки о личности и судьбе исследователя.
С помощью этого практического опыта я глубже понял возможности обработки данных Hive и важность фильтрации данных при выявлении инсайтов из больших наборов данных. Интерактивная сценарий и пошаговое руководство лабы сделали процесс обучения приятным и полезным. Я надеюсь применить эти навыки в будущих проектах анализа данных, разгадывая больше загадок, скрытых в огромных запасах данных.



