Le destin des explorateurs dévoilé avec Hadoop

HadoopBeginner
Pratiquer maintenant

Introduction

Au cœur du désert du Sahara, une équipe d'archéologues a découvert une pyramide égyptienne ancienne, cachée sous les sables dorés depuis des millénaires. Les rumeurs d'un explorateur maudit qui est entré dans les profondeurs de la tombe se sont répandues comme une traînée de poudre, piquant votre curiosité. En tant que spécialiste des données expérimenté, vous avez été chargé de découvrir la vérité derrière la légende, en utilisant les capacités de Hadoop et de Hive.

Votre mission est double : premièrement, traiter un ensemble de données vaste de documents archéologiques, pour découvrir des indices sur l'identité et le sort de l'explorateur maudit. Deuxièmement, analyser l'inventaire des artefacts récupérés de la tombe, pour éclairer la civilisation énigmatique qui a construit la pyramide.

Explorer les documents archéologiques

Dans cette étape, nous allons plonger dans les documents archéologiques en utilisant Hive et la clause where pour filtrer et analyser les données.

  1. Démarrez l'environnement Hadoop en exécutant la commande suivante dans votre terminal :
su - hadoop
  1. Lancez le shell Hive en exécutant la commande suivante :
hive
  1. Créez une nouvelle table Hive nommée archaeological_records pour stocker l'ensemble de données :
CREATE TABLE archaeological_records (
    record_id INT,
    site_name STRING,
    discovery_date DATE,
    description STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
  1. Chargez les données dans la table archaeological_records à partir du fichier /home/hadoop/records.csv :
LOAD DATA LOCAL INPATH '/home/hadoop/records.csv' OVERWRITE INTO TABLE archaeological_records;
  1. Utilisez la clause where pour filtrer les enregistrements liés au site de l'explorateur maudit :
SELECT *
FROM archaeological_records
WHERE site_name = 'Pyramid of Khufu';

Cette requête affichera tous les enregistrements associés au site de la "Pyramide de Khéops", vous aidant à resserrer votre recherche pour trouver des indices.

Analyser l'inventaire d'artefacts

Maintenant que nous avons réduit les enregistrements, analysons l'inventaire d'artefacts récupérés du site de l'explorateur maudit.

  1. Créez une nouvelle table Hive nommée artifact_inventory pour stocker les données sur les artefacts :
CREATE TABLE artifact_inventory (
    artifact_id INT,
    artifact_name STRING,
    material STRING,
    site_name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
  1. Chargez les données dans la table artifact_inventory à partir du fichier /home/hadoop/artifacts.csv :
LOAD DATA LOCAL INPATH '/home/hadoop/artifacts.csv' OVERWRITE INTO TABLE artifact_inventory;
  1. Utilisez la clause where pour filtrer les artefacts trouvés au site de la "Pyramide de Khéops" :
SELECT artifact_name, material
FROM artifact_inventory
WHERE site_name = 'Pyramid of Khufu';

Cette requête affichera les noms et les matériaux des artefacts trouvés au site de l'explorateur maudit, fournissant des informations précieuses sur la civilisation qui a construit la pyramide.

Découvrir l'identité de l'explorateur maudit

Avec les documents archéologiques et l'inventaire d'artefacts à portée de main, il est temps de dévoiler le mystère de l'identité de l'explorateur maudit.

  1. Joignez les tables archaeological_records et artifact_inventory sur la colonne site_name :
CREATE TABLE result_1
AS
SELECT ar.record_id, ar.description, ai.artifact_name
FROM archaeological_records ar
JOIN artifact_inventory ai
ON ar.site_name = ai.site_name
WHERE ar.site_name = 'Pyramid of Khufu';

SELECT * FROM result_1;

Cette requête combinera les documents archéologiques et les informations sur les artefacts pour le site de la "Pyramide de Khéops", révélant potentiellement des indices sur l'identité et le sort de l'explorateur maudit.

  1. Utilisez la clause where pour filtrer les données jointes sur la base de mots-clés ou de motifs liés à l'explorateur maudit :
CREATE TABLE result_2
AS
SELECT ar.record_id, ar.description, ai.artifact_name
FROM archaeological_records ar
JOIN artifact_inventory ai
ON ar.site_name = ai.site_name
WHERE ar.site_name = 'Pyramid of Khufu'
AND ar.description LIKE '%cursed explorer%';

SELECT * FROM result_2;

Cette requête affichera seulement les enregistrements et les artefacts qui mentionnent l'"explorateur maudit", vous aidant à compléter le puzzle.

Résumé

Dans ce laboratoire, nous avons exploré les capacités de Hadoop Hive et de la clause where pour dévoiler le mystère d'un explorateur maudit qui est entré dans une pyramide égyptienne ancienne. En analysant les documents archéologiques et les inventaires d'artefacts, nous avons pu filtrer et extraire les données pertinentes, mettant finalement au jour des indices sur l'identité et le sort de l'explorateur.

Grâce à cette expérience pratique, j'ai acquis une compréhension plus approfondie des capacités de traitement de données de Hive et de l'importance du filtrage des données pour découvrir des informations dans de grands ensembles de données. Le scénario captivant et les instructions étape par étape du laboratoire ont rendu le processus d'apprentissage agréable et enrichissant. J'ai hâte d'appliquer ces compétences dans des projets de traitement de données futurs, pour dévoiler d'autres mystères cachés dans de vastes bases de données.