Infiltration de données rebelles avec LIMIT

HadoopHadoopBeginner
Pratiquer maintenant

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

Dans une galaxie lointaine, une guerre intergalactique a fait rage depuis des siècles entre l'Empire Galactique et l'Alliance Rebelle. En tant qu'éclaireur spatial réputé, vous avez été recruté par l'Alliance Rebelle pour recueillir des renseignements cruciaux sur le développement des dernières armes de l'Empire. Votre mission est d'infiltrer le dépôt de données secret de l'Empire et d'analyser leurs enregistrements à l'aide de l'écosystème puissant Hadoop.

L'Empire Galactique a collecté d'énormes quantités de données de ses conquêtes planétaires, y compris des informations sur les ressources, les populations et les opérations militaires. Ces données sont stockées dans leur cluster Hadoop fortement gardé, que vous devez accéder pour découvrir les plans de l'Empire et ses faiblesses potentielles.

Votre objectif est d'utiliser Hive, un outil de stockage de données dans l'écosystème Hadoop, pour analyser les données de l'Empire et identifier des modèles qui pourraient aider l'Alliance Rebelle dans sa lutte contre le régime oppresseur. Plus précisément, vous allez apprendre à utiliser la clause LIMIT dans Hive pour analyser et extraire efficacement des informations pertinentes à partir de grands ensembles de données.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL hadoop(("Hadoop")) -.-> hadoop/HadoopHiveGroup(["Hadoop Hive"]) hadoop(("Hadoop")) -.-> hadoop/HadoopHDFSGroup(["Hadoop HDFS"]) hadoop/HadoopHDFSGroup -.-> hadoop/hdfs_setup("HDFS Setup") hadoop/HadoopHDFSGroup -.-> hadoop/fs_mkdir("FS Shell mkdir") hadoop/HadoopHDFSGroup -.-> hadoop/fs_put("FS Shell copyToLocal/put") hadoop/HadoopHiveGroup -.-> hadoop/hive_shell("Hive Shell") hadoop/HadoopHiveGroup -.-> hadoop/create_tables("Creating Tables") hadoop/HadoopHiveGroup -.-> hadoop/limit("limit Usage") hadoop/HadoopHiveGroup -.-> hadoop/group_by("group by Usage") subgraph Lab Skills hadoop/hdfs_setup -.-> lab-288983{{"Infiltration de données rebelles avec LIMIT"}} hadoop/fs_mkdir -.-> lab-288983{{"Infiltration de données rebelles avec LIMIT"}} hadoop/fs_put -.-> lab-288983{{"Infiltration de données rebelles avec LIMIT"}} hadoop/hive_shell -.-> lab-288983{{"Infiltration de données rebelles avec LIMIT"}} hadoop/create_tables -.-> lab-288983{{"Infiltration de données rebelles avec LIMIT"}} hadoop/limit -.-> lab-288983{{"Infiltration de données rebelles avec LIMIT"}} hadoop/group_by -.-> lab-288983{{"Infiltration de données rebelles avec LIMIT"}} end

Accès au référentiel de données de l'Empire

Dans cette étape, vous allez établir une connexion sécurisée au cluster Hadoop de l'Empire et explorer les jeux de données disponibles.

  1. Lancez votre terminal sécurisé et authentifiez-vous avec les identifiants de l'Alliance Rebelle.
  2. Utilisez la commande su - hadoop pour vous connecter en tant qu'utilisateur hadoop (aucun mot de passe requis).
su - hadoop
  1. Accédez au répertoire /home/hadoop, qui sera votre répertoire de travail par défaut.
cd /home/hadoop
  1. Liste le contenu du répertoire pour vous familiariser avec les fichiers et les répertoires disponibles.
ls

Vous devriez voir un répertoire nommé empire_data. Ce répertoire contient les enregistrements de données de l'Empire, que vous analyserez dans les étapes suivantes.

  1. Placez empire_data sur hdfs pour qu'il soit utilisé par hive.
hadoop fs -mkdir -p /home/hadoop
hadoop fs -put /home/hadoop/empire_data /home/hadoop

Exploration des enregistrements de ressources de l'Empire

Dans cette étape, vous allez analyser les enregistrements de ressources de l'Empire à l'aide de la clause LIMIT dans Hive.

  1. Lancez le shell Hive en exécutant la commande suivante :
hive
  1. Créez une nouvelle base de données appelée rebel_intelligence pour stocker votre analyse.
CREATE DATABASE rebel_intelligence;
  1. Utilisez la base de données rebel_intelligence.
USE rebel_intelligence;
  1. Créez une table externe nommée resources qui pointe vers les données de ressources de l'Empire stockées dans le répertoire /home/hadoop/empire_data/resources.
CREATE EXTERNAL TABLE resources (
    planet STRING,
    resource STRING,
    quantity BIGINT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/home/hadoop/empire_data/resources';
  1. Affichez les 10 premiers enregistrements de la table resources à l'aide de la clause LIMIT.
SELECT * FROM resources LIMIT 10;

Cette commande affichera les 10 premières lignes de la table resources, vous permettant de comprendre la structure et le contenu des données.

  1. Analysez la distribution des ressources entre les planètes en exécutant une requête avec la clause LIMIT.
SELECT planet, SUM(quantity) AS total_resources
FROM resources
GROUP BY planet
ORDER BY total_resources DESC
LIMIT 5;

Cette requête montrera les 5 planètes ayant les plus grandes ressources totales, fournissant des informations précieuses sur les territoires les plus riches en ressources de l'Empire.

Analyse des opérations militaires de l'Empire

Dans cette étape, vous allez examiner les opérations militaires de l'Empire en interrogeant leurs enregistrements de mission à l'aide de la clause LIMIT.

  1. Créez une table externe nommée missions qui pointe vers les données de mission de l'Empire stockées dans le répertoire /home/hadoop/empire_data/missions.
CREATE EXTERNAL TABLE missions (
    mission_id STRING,
    planet STRING,
    operation STRING,
    start_date STRING,
    end_date STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/home/hadoop/empire_data/missions';
  1. Affichez les 5 premiers enregistrements de la table missions à l'aide de la clause LIMIT.
SELECT * FROM missions LIMIT 5;
  1. Analysez les opérations militaires les plus récentes en exécutant une requête avec la clause LIMIT et en triant par la colonne end_date.
SELECT planet, operation, end_date
FROM missions
ORDER BY end_date DESC
LIMIT 10;

Cette requête montrera les 10 opérations militaires les plus récentes menées par l'Empire, fournissant des renseignements précieux sur leurs activités les plus récentes.

  1. Identifiez les planètes ayant la plus forte concentration d'opérations militaires en exécutant une requête avec la clause LIMIT et en regroupant par la colonne planet.
SELECT planet, COUNT(*) AS operation_count
FROM missions
GROUP BY planet
ORDER BY operation_count DESC
LIMIT 3;

Cette requête révèlera les 3 planètes ayant le plus grand nombre d'opérations militaires, indiquant des cibles potentielles ou des emplacements stratégiques pour l'Alliance Rebelle.

Découvrir les mesures de contrôle de population de l'Empire

Dans cette étape, vous allez découvrir les mesures de contrôle de population de l'Empire en analysant leurs enregistrements de recensement à l'aide de la clause LIMIT.

  1. Créez une table externe nommée census qui pointe vers les données de recensement de l'Empire stockées dans le répertoire /home/hadoop/empire_data/census.
CREATE EXTERNAL TABLE census (
    planet STRING,
    species STRING,
    population BIGINT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/home/hadoop/empire_data/census';
  1. Affichez les 10 premiers enregistrements de la table census à l'aide de la clause LIMIT.
SELECT * FROM census LIMIT 10;
  1. Analysez les planètes les plus peuplées en exécutant une requête avec la clause LIMIT et en triant par la colonne population dans l'ordre décroissant.
SELECT planet, SUM(population) AS total_population
FROM census
GROUP BY planet
ORDER BY total_population DESC
LIMIT 5;

Cette requête montrera les 5 planètes les plus peuplées de l'Empire, donnant des informations sur les emplacements potentiels pour recruter de nouveaux rebelles ou identifier des zones avec une importante population civile.

  1. Identifiez les espèces ayant la plus forte population dans tout l'Empire en exécutant une requête avec la clause LIMIT et en regroupant par la colonne species.
SELECT species, SUM(population) AS total_population
FROM census
GROUP BY species
ORDER BY total_population DESC
LIMIT 3;

Cette requête révèlera les 3 espèces ayant la plus forte population dans l'Empire, ce qui pourrait être des informations précieuses pour comprendre la diversité et le soutien potentiel parmi les différentes espèces pour l'Alliance Rebelle.

Sommaire

Dans ce laboratoire, vous avez appris à utiliser la clause LIMIT dans Hive, un outil de stockage de données dans l'écosystème Hadoop, pour analyser efficacement et extraire des informations pertinentes des vastes référentiels de données de l'Empire Galactique. En explorant les enregistrements de ressources, les opérations militaires et les données de recensement, vous avez acquis des connaissances précieuses sur les forces, les faiblesses et les vulnérabilités potentielles de l'Empire.

Grâce à des exercices pratiques, vous avez pratiqué la création de tables externes, l'interrogation de données à l'aide de la clause LIMIT et le filtrage et le tri des résultats selon des critères spécifiques. Cette expérience pratique a non seulement renforcé vos compétences en Hive, mais vous a également permis de mieux comprendre comment extraire des informations d'action à partir de grands ensembles de données.

Le scénario immergeant du laboratoire, situé dans une guerre galactique, a ajouté un contexte captivant et motivant à votre expérience d'apprentissage. En vous imaginant dans le rôle d'un explorateur spatial travaillant pour l'Alliance Rebelle, vous avez eu un sens de vocation et d'urgence à découvrir les secrets de l'Empire, rendant le processus d'apprentissage plus agréable et significatif.

Dans l'ensemble, ce laboratoire vous a doté des compétences nécessaires pour exploiter le pouvoir de Hadoop et Hive dans l'analyse de données, vous préparant aux défis futurs dans le domaine des grands données et vous permettant de contribuer à la lutte de l'Alliance Rebelle contre l'oppressif Empire Galactique.