Судьба исследователей раскрыта с помощью Hadoop

HadoopBeginner
Практиковаться сейчас

Введение

В сердце Сахары一队考古学家偶然发现了一座古埃及金字塔,它隐藏在金色的沙子下已有数千年之久。关于一位冒险进入墓室深处的被诅咒探险家的传闻像野火一样蔓延,点燃了你的好奇心。作为一名熟练的数据分析师,你被赋予了一项任务,即利用 Hadoop 和 Hive 的力量揭开这个传说背后的真相。

你的任务有两个方面:第一,处理大量的考古记录数据集,揭开关于被诅咒探险家的身份和命运的线索。第二,分析从墓室中 recovered 的文物清单,揭示建造金字塔的神秘文明。

Изучение археологических записей

В этом шаге мы углубимся в археологические записи с использованием Hive и предложения where для фильтрации и анализа данных.

  1. Запустите среду Hadoop, выполнив следующую команду в терминале:
su - hadoop
  1. Запустите Hive shell, выполнив следующую команду:
hive
  1. Создайте новую таблицу Hive под названием archaeological_records для хранения набора данных:
CREATE TABLE archaeological_records (
    record_id INT,
    site_name STRING,
    discovery_date DATE,
    description STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
  1. Загрузите данные в таблицу archaeological_records из файла /home/hadoop/records.csv:
LOAD DATA LOCAL INPATH '/home/hadoop/records.csv' OVERWRITE INTO TABLE archaeological_records;
  1. Используйте предложение where для фильтрации записей, связанных с местом, где был проклятый исследователь:
SELECT *
FROM archaeological_records
WHERE site_name = 'Pyramid of Khufu';

Этот запрос выведет все записи, связанные с местом "Пирамида Хефрана", помагая вам сузить поиск подсказок.

Анализ инвентаря артефактов

Теперь, когда мы сузили записи, давайте проанализируем инвентарь артефактов, найденных на месте, где был проклятый исследователь.

  1. Создайте новую таблицу Hive под названием artifact_inventory для хранения данных об артефактах:
CREATE TABLE artifact_inventory (
    artifact_id INT,
    artifact_name STRING,
    material STRING,
    site_name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
  1. Загрузите данные в таблицу artifact_inventory из файла /home/hadoop/artifacts.csv:
LOAD DATA LOCAL INPATH '/home/hadoop/artifacts.csv' OVERWRITE INTO TABLE artifact_inventory;
  1. Используйте предложение where для фильтрации артефактов, найденных на месте "Пирамида Хефрана":
SELECT artifact_name, material
FROM artifact_inventory
WHERE site_name = 'Pyramid of Khufu';

Этот запрос выведет имена и материалы артефактов, найденных на месте, где был проклятый исследователь, предоставляя ценные сведения о цивилизации, которая построила пирамиду.

Раскрытие личности проклятого исследователя

С археологическими записями и инвентарем артефактов под рукой, настало время разгадать тайну личности проклятого исследователя.

  1. Объедините таблицы archaeological_records и artifact_inventory по столбцу site_name:
CREATE TABLE result_1
AS
SELECT ar.record_id, ar.description, ai.artifact_name
FROM archaeological_records ar
JOIN artifact_inventory ai
ON ar.site_name = ai.site_name
WHERE ar.site_name = 'Pyramid of Khufu';

SELECT * FROM result_1;

Этот запрос будет объединять археологические записи и информацию об артефактах для места "Пирамида Хефрана", потенциально раскрывая подсказки о личности и судьбе проклятого исследователя.

  1. Используйте предложение where для фильтрации объединенных данных на основе ключевых слов или шаблонов, связанных с проклятым исследователем:
CREATE TABLE result_2
AS
SELECT ar.record_id, ar.description, ai.artifact_name
FROM archaeological_records ar
JOIN artifact_inventory ai
ON ar.site_name = ai.site_name
WHERE ar.site_name = 'Pyramid of Khufu'
AND ar.description LIKE '%cursed explorer%';

SELECT * FROM result_2;

Этот запрос будет отображать только записи и артефакты, которые упоминают "проклятого исследователя", помогая вам собрать пазл.

Резюме

В этом лабе мы исследовали силу Hadoop Hive и предложение where, чтобы разгадать тайну проклятого исследователя, который ventured into an ancient Egyptian pyramid. Анализируя археологические записи и инвентари артефактов, мы смогли отфильтровать и извлечь соответствующие данные, в конечном итоге раскрывая подсказки о личности и судьбе исследователя.

С помощью этого практического опыта я глубже понял возможности обработки данных Hive и важность фильтрации данных при выявлении инсайтов из больших наборов данных. Интерактивная сценарий и пошаговое руководство лабы сделали процесс обучения приятным и полезным. Я надеюсь применить эти навыки в будущих проектах анализа данных, разгадывая больше загадок, скрытых в огромных запасах данных.