Découverte des données de Mars avec Hadoop

HadoopBeginner
Pratiquer maintenant

Introduction

En l'an 2150, les ressources de la Terre ont été épuisées, et l'humanité a établi une métropole prospère sur Mars, connue sous le nom de Martropolis. En tant qu'officier de protection de l'environnement, votre mission est d'assurer la durabilité de cette ville futuriste en analysant et en optimisant l'utilisation des ressources. L'une de vos principales responsabilités est de tirer parti de la puissance de Hadoop et de Hive pour traiter et analyser de vastes quantités de données environnementales, ce qui guidera votre processus de prise de décision.

Votre objectif est d'explorer la base de données Hive, d'en étudier la structure et de comprendre les données qu'elle contient. En maîtrisant l'art de décrire les tables dans Hive, vous découvrirez les secrets cachés dans les données, vous permettant de prendre des décisions éclairées qui façonneront l'avenir de Martropolis et protégeront son écosystème fragile.

Connectez-vous à Hive et liste des bases de données disponibles

Dans cette étape, vous allez apprendre à vous connecter à l'environnement Hive et à lister les bases de données disponibles.

Tout d'abord, assurez-vous d'être connecté en tant qu'utilisateur hadoop en exécutant la commande suivante dans le terminal :

su - hadoop

Maintenant, lancez le shell Hive en exécutant la commande suivante :

hive

Une fois que vous êtes dans le shell Hive, vous pouvez utiliser la commande SHOW DATABASES pour lister toutes les bases de données disponibles.

SHOW DATABASES;

Cette commande affichera une liste de bases de données, y compris la base de données par défaut. Exemple de sortie :

hive> SHOW DATABASES;
OK
default
martropolis
Temps pris : 0,528 secondes, Récupéré : 2 ligne(s)

Basculer vers la base de données'martropolis'

Dans cette étape, vous passerez à la base de données martropolis, qui contient les tables pertinentes pour votre mission.

USE martropolis;

Après avoir exécuté cette commande, vous travaillerez dans la base de données martropolis.

Astuce : martropolis a été automatiquement créée par le système en tant que base de données d'exemple pour ce laboratoire.

Lister les tables de la base de données'martropolis'

Maintenant que vous êtes dans la base de données martropolis, vous pouvez lister toutes les tables qu'elle contient en utilisant la commande SHOW TABLES.

SHOW TABLES;

Cette commande affichera une liste des tables disponibles dans la base de données martropolis. Exemple de sortie :

hive> SHOW TABLES;
OK
données_capteurs
Temps pris : 0,028 secondes, Récupéré : 1 ligne(s)

Décrire la structure d'une table

Pour comprendre la structure d'une table, vous pouvez utiliser la commande DESCRIBE suivie du nom de la table.

DESCRIBE données_capteurs;

Cette commande fournira des informations détaillées sur les colonnes de la table, y compris les noms de colonnes, les types de données et tout métadonnées supplémentaires. Exemple de sortie :

hive> DESCRIBE données_capteurs;
OK
id_capteur              int
nom_capteur             string
mesure                 double
dt                      string

## Informations de partitionnement
## col_name              data_type               comment
dt                      string
Temps pris : 0,154 secondes, Récupéré : 8 ligne(s)

Explorer les propriétés de la table

En plus de la structure de la table, vous pouvez également explorer les propriétés d'une table en utilisant la commande DESCRIBE EXTENDED.

DESCRIBE EXTENDED données_capteurs;

Cette commande fournira des informations plus détaillées sur la table, y compris ses propriétés, telles que le type de table, les formats d'entrée et de sortie, l'emplacement et toute autre métadonnée pertinente. Exemple de sortie :

hive> DESCRIBE EXTENDED données_capteurs;
OK
id_capteur              int
nom_capteur             string
mesure                 double
dt                      string

## Informations de partitionnement
## col_name              data_type               comment
dt                      string

Informations détaillées sur la table      Table(tableName:données_capteurs, dbName:martropolis, owner:hadoop, createTime:1711106250, lastAccessTime:0, retention:0, sd:StorageDescriptor(cols:[FieldSchema(name:id_capteur, type:int, comment:null), FieldSchema(name:nom_capteur, type:string, comment:null), FieldSchema(name:mesure, type:double, comment:null), FieldSchema(name:dt, type:string, comment:null)], location:hdfs://localhost:9000/user/hive/warehouse/martropolis.db/données_capteurs, inputFormat:org.apache.hadoop.mapred.TextInputFormat, outputFormat:org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat, compressed:false, numBuckets:-1, serdeInfo:SerDeInfo(name:null, serializationLib:org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, parameters:{serialization.format=1}), bucketCols:[], sortCols:[], parameters:{}, skewedInfo:SkewedInfo(skewedColNames:[], skewedColValues:[], skewedColValueLocationMaps:{}), storedAsSubDirectories:false), partitionKeys:[FieldSchema(name:dt, type:string, comment:null)], parameters:{totalSize=49, numRows=2, rawDataSize=47, COLUMN_STATS_ACCURATE={\"BASIC_STATS\":\"true\"}, numFiles=1, numPartitions=1, transient_lastDdlTime=1711106250, bucketing_version=2}, viewOriginalText:null, viewExpandedText:null, tableType:MANAGED_TABLE, rewriteEnabled:false, catName:hive, ownerType:USER)
Temps pris : 0,367 secondes, Récupéré : 10 ligne(s)

Analyser les partitions de la table (Facultatif)

Si vos tables sont partitionnées, vous pouvez utiliser la commande SHOW PARTITIONS pour afficher les partitions d'une table spécifique.

SHOW PARTITIONS données_capteurs;

Cette commande affichera une liste des partitions pour la table spécifiée, ainsi que leurs valeurs de partition correspondantes. Exemple de sortie :

hive> SHOW PARTITIONS données_capteurs;
OK
dt=2023-05-01
Temps pris : 0,099 secondes, Récupéré : 1 ligne(s)

Résumé

Dans ce laboratoire, vous avez appris à naviguer dans l'environnement Hive, à basculer entre les bases de données, à lister les tables et à décrire la structure et les propriétés des tables. En maîtrisant ces compétences fondamentales, vous avez accompli le premier pas vers la découverte des précieuses informations cachées dans les données environnementales de Martropolis.

Grâce à une expérience pratique, vous avez acquis une compréhension approfondie des commandes SHOW DATABASES, USE, SHOW TABLES, DESCRIBE, DESCRIBE EXTENDED et SHOW PARTITIONS. Ces commandes sont des outils essentiels pour explorer et comprendre l'organisation des données dans Hive, vous permettant de prendre des décisions éclairées qui influenceront l'avenir de Martropolis et protégeront son écosystème fragile.