Démarrage rapide d'Hive

LinuxLinuxBeginner
Pratiquer maintenant

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

Ce laboratoire se concentre sur la configuration et les opérations de base d'Hive, conçu pour les étudiants ayant une certaine base en SQL pour comprendre l'architecture d'Hive, son déploiement et son utilisation de base.

Entrez vous-même tout le code d'exemple du document ; n'essayez pas seulement de copier et coller le code. Seulement de cette manière, vous pourrez être plus familier avec le code. Si vous rencontrez des problèmes, relisez attentivement la documentation, ou vous pouvez aller sur le forum pour demander de l'aide et communiquer.

Présentation d'Hive

Apache Hive est un paquet logiciel de stockage de données construit sur Hadoop pour interroger et analyser de grands ensembles de données à l'aide d'interrogations ressemblant à SQL. Il simplifie l'agrégation de données, les requêtes ad hoc et l'analyse des données massives en offrant une interface SQL familière aux utilisateurs. Voici une vue d'ensemble de l'architecture d'Hive et de ses principales fonctionnalités :

Architecture d'Hive

  • Composants : Hive est composé de HCatalog pour la gestion des tables et des emplacements de stockage et de WebHCat pour exécuter des tâches MapReduce, des requêtes Pig ou interagir avec les métadonnées d'Hive via l'API REST.
  • Fonctionnalités :
    • Prend en charge les requêtes SQL pour les tâches de stockage de données telles que l'ETL, l'analyse de données et la production de rapports.
    • Les données sont stockées dans des systèmes de stockage tels que HDFS ou HBase ; les opérations de requête sont exécutées par des moteurs de calcul tels que Tez, Spark ou MapReduce.
    • Prend en charge les langages procéduraux, HPL-SQL, et la récupération de sous-requêtes avec le support de Hive LLAP, YARN et Slider.

Unités de données de base dans Hive

  • Base de données : Espace de noms pour éviter les conflits de noms et renforcer la sécurité.
  • Table : Unités de données homogènes avec le même schéma (par exemple, la table page_views avec des colonnes telles que timestamp, userid, page_url).
  • Partition : Divise les données en partitions basées sur des clés pour une récupération de données efficace.
  • Buckets : Divise les données partitionnées en buckets basés sur les valeurs de fonction de hachage pour améliorer l'efficacité des requêtes.

Types de données d'Hive

Hive est conçu pour les tâches de stockage de données plutôt que pour le traitement transactionnel en ligne (OLTP), en se concentrant sur la capacité de mise à l'échelle, la performance, la fiabilité et la tolérance aux pannes. Il prend en charge diverses formats d'entrée et peut être étendu avec des connecteurs dans différents formats. Comprendre l'architecture d'Hive, ses unités de données et ses types de données est essentiel pour exploiter ses capacités dans l'analyse de données massives.

Installation et déploiement d'Hive

Cette section se concentre sur le téléchargement et les paramètres de répertoire, les paramètres des variables d'environnement, la configuration de la métabase, les paramètres système d'Hive et l'initialisation de la métabase.

Tout d'abord, vous devez basculer sur l'utilisateur hadoop pour effectuer les opérations suivantes. Double-cliquez pour ouvrir le terminal Xfce sur votre bureau et entrez les commandes suivantes :

su - hadoop

Astuce : le mot de passe est 'hadoop' de l'utilisateur 'hadoop'

Ensuite, utilisez la commande wget pour télécharger la dernière version stable d'Hive. Nous avons choisi la version 2.3.3 d'Hive ici :

sudo wget https://labexfile.oss-us-west-1.aliyuncs.com/courses/144/apache-hive-2.3.3-bin.tar.gz

Ensuite, vous devez extraire le package d'installation téléchargé. Entrez la commande suivante dans le terminal :

tar -zxvf apache-hive-2.3.3-bin.tar.gz

Utilisez les privilèges sudo pour déplacer le répertoire extrait vers le répertoire /opt. Si vous n'utilisez pas les privilèges sudo, vous ne pourriez pas écrire dans le répertoire /opt :

sudo mv /home/hadoop/apache-hive-2.3.3-bin /opt/hive-2.3.3

Après avoir déplacé le répertoire, vous devez changer le propriétaire du répertoire d'Hive en utilisateur hadoop et son groupe d'utilisateurs. Veuillez entrer la commande suivante dans le terminal :

sudo chown -R hadoop:hadoop /opt/hive-2.3.3

Astuce : vous pouvez ouvrir un autre terminal pour effectuer les opérations ci-dessus avec les privilèges'sudo'.

labex:~/ $ ls -al /opt/
total 24
drwxrwxr-x 10 hadoop hadoop 4096 Mar 3 12:01 hive-2.3.3
...

Paramètres des variables d'environnement

Après avoir configuré le répertoire, vous devez configurer les variables d'environnement d'Hive afin que HIVE_HOME pointe vers son répertoire d'installation.

Tout d'abord, ouvrez le fichier .bashrc de l'utilisateur hadoop à l'aide de l'éditeur vim. Entrez la commande suivante dans le terminal :

vim /home/hadoop/.bashrc

Ajoutez le contenu suivant à la fin du fichier. Le PATH doit être modifié selon la situation réelle de l'environnement d'expérience actuel. L'expression $PATH est utilisée pour faire référence au contenu existant. Ajoutez :$HIVE_HOME/bin directement à la fin de la variable d'environnement PATH :

export HIVE_HOME=/opt/hive-2.3.3
export PATH=$PATH:$HIVE_HOME/bin

Enregistrez le fichier et quittez l'éditeur une fois l'édition terminée. Ensuite, utilisez la commande source pour activer les variables d'environnement ci-dessus.

Dans ce laboratoire, nous avons pré-installé hive, donc vous n'avez pas besoin de la variable d'environnement source, mais dans votre installation réelle, cette étape est effectuée au cas par cas.

Configuration de Hive

Il s'agit d'un processus de configuration d'Hive. Dans cette étape, vous pouvez seulement visualiser sans intervention manuelle, car nous avons pré-configuré un Hive dans le laboratoire, et nous avons pré-installé Hive. Vous pouvez utiliser la commande which hive pour vérifier, mais la création du fichier doit toujours être effectuée, car c'est les informations d'identification qui déterminent si vous passez le test ou non.

Configuration de la métabase

Avant de pouvoir utiliser officiellement Hive, vous devez configurer son stockage de métadonnées. Par défaut, Hive stocke les informations métadonnées dans une base de données Derby embarquée. Son emplacement de stockage sur le disque est déterminé par l'élément de configuration javax.jdo.option.ConnectionURL dans le fichier de configuration d'Hive conf/hive-default.xml. Par défaut, cet emplacement est ./metastore_db.

Mais dans ce laboratoire, nous utiliserons MySQL comme stockage pour les métadonnées. Par conséquent, vous devez modifier le fichier de configuration d'Hive.

Créez et ouvrez ce fichier de configuration que nous avons créé avec l'éditeur vim :

vim /opt/hive-2.3.3/conf/hive-site.xml
<configuration>
<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://localhost:3306/hive_metastore1?createDatabaseIfNotExist=true</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.cj.jdbc.Driver</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>hiveuser1</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>123qweQWE...</value>
</property>
</configuration>

Après avoir édité les éléments de configuration ci-dessus, enregistrez le fichier et quittez l'éditeur.

Création de la base de données MySQL

Démarrez le serveur Mysql avec sudo mysql et créez la base de données hive_metastore :

CREATE DATABASE hive_metastore1;
CREATE USER 'hiveuser1'@'localhost' IDENTIFIED BY '123qweQWE...';
GRANT ALL PRIVILEGES ON hive_metastore1.* TO 'hiveuser1'@'localhost';
FLUSH PRIVILEGES;
exit;

Ensuite, téléchargez le pilote JDBC MySQL et copiez-le dans le répertoire /opt/hive-2.3.3/lib

cp /usr/local/hive/lib/mysql-connector-j-8.3.0.jar /opt/hive-2.3.3/lib

Paramètres de configuration système d'Hive

Après avoir configuré la métabase, vous devez configurer les paramètres de configuration interne d'Hive pour identifier l'emplacement de Hadoop, le chemin du fichier de configuration interne, etc.

La première chose à faire est d'utiliser la commande cp pour faire une copie du modèle de paramètres pour qu'il prenne effet.

Veuillez entrer la commande suivante dans le terminal :

cp /opt/hive-2.3.3/conf/hive-env.sh.template /opt/hive-2.3.3/conf/hive-env.sh

Ensuite, ouvrez le fichier hive-env.sh avec l'éditeur vim :

vim /opt/hive-2.3.3/conf/hive-env.sh

À la ligne 48, définissez HADOOP_HOME sur le chemin d'installation de Hadoop :

HADOOP_HOME=/home/hadoop/hadoop

Après avoir édité les paramètres de configuration ci-dessus, enregistrez le fichier et quittez l'éditeur.

Initialisation de la métabase

Une fois que toutes les tâches de configuration sont terminées, vous pouvez commencer à initialiser la métabase.

Puisque les données utilisées ultérieurement seront stockées sur HDFS, vous devez démarrer HDFS à l'avance. Veuillez entrer les commandes suivantes dans le terminal pour démarrer HDFS :

start-dfs.sh
start-yarn.sh

Vous devez taper jps pour voir l'état du service :

hadoop:~/ $ jps                                                      [17:31:43]
8960 Jps
3153 NodeManager
2823 SecondaryNameNode
3017 ResourceManager
2570 DataNode
2428 NameNode

Si vous utilisez Hadoop pour la première fois, vous devez supprimer les données Hadoop et l'initialiser avec hdfs namenode -format.

Dans ce laboratoire, nous avons initialisé le Hive pré-installé avec la base de données par défaut. Bien sûr, si vous voulez initialiser le Hive que vous venez de télécharger, utilisez la commande suivante.

/opt/hive-2.3.3/bin/schematool -initSchema -dbType mysql
Initialization script completed
schemaTool completed

Ici, si vous initialisez tout d'abord le Hive que vous venez de télécharger, vous devrez modifier le chemin de HIVE_HOME dans '~/.bashrc' pour le chemin du Hive que vous venez d'installer et exécuter source, et mon conseil est de ne pas le faire, car nos tests ultérieurs de Hive sont tous basés sur le Hive pré-installé!

Lorsque le message de confirmation indique que l'initialisation est terminée, vous pouvez utiliser la commande hive pour entrer dans sa ligne de commande. Veuillez entrer la commande suivante dans le terminal :

hive

Astuce : En tapant directement hive dans la console du Hive pré-installé, en ajoutant le chemin absolu, vous serez dans la console du Hive que vous venez de configurer!

Hive Session ID = 3eee2693-175d-4452-82d2-47f1b639d9d5

Logging initialized using configuration in jar:file:/usr/local/hive/lib/hive-common-3.1.3.jar!/hive-log4j2.properties Async: true
Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
Hive Session ID = 68d0d345-92c3-4eb1-8393-7ee34f56363f
hive>

Opérations de base d'Hive

Ensuite, nous allons apprendre certaines opérations de base dans Hive. En plus de certaines des instructions d'opération mentionnées dans cette section, toutes les instructions d'Hive peuvent être trouvées dans son Manuel de langage. Vous pouvez essayer plus d'instructions après avoir terminé cette section.

Création d'une table

Tout d'abord, vous devez obtenir certaines données. Les données utilisées dans cette section de l'expérience sont principalement un fichier de journal simulant le serveur NginX, qui peut être utilisé pour analyser les vues de pages du site web.

Veuillez rouvrir un terminal et entrer les commandes suivantes dans le terminal pour télécharger les données d'échantillonnage :

su hadoop
cd ~
wget http://labfile.oss-cn-hangzhou.aliyuncs.com/courses/567/log_example.csv

Ensuite, chargez le fichier sur HDFS :

hdfs dfs -mkdir -p /user/data/staging/page_view
hdfs dfs -put /home/hadoop/log_example.csv /user/data/staging/page_view

La première chose à faire après avoir les données est de créer la table. Si vous voulez créer une table page_view pour les données ci-dessus, vous devez entrer la déclaration suivante sur la ligne de commande d'Hive :

CREATE TABLE page_view(viewTime INT, userid BIGINT,
Page_url STRING, referrer_url STRING,
Ip STRING COMMENT 'Adresse IP de l''utilisateur')
COMMENT 'Ceci est la table des vues de pages'
PARTITIONED BY(dt STRING, country STRING)
STORED AS SEQUENCEFILE;

Dans cet exemple, chaque colonne de la table est assignée à un type approprié. Et, nous pouvons ajouter des commentaires aux niveaux de colonne et de table. En outre, la clause PARTITIONED BY définit une colonne de partitionnement qui est différente des colonnes de données. La colonne de partitionnement n'est pas stockée avec les colonnes de données. Lorsque vous spécifiez une colonne de partitionnement de cette manière, un caractère de nouvelle ligne est utilisé comme séparateur pour chaque ligne.

Si les données ne sont pas au format ci-dessus, vous pouvez paramétrer le séparateur de champs comme dans l'exemple suivant :

La déclaration suivante n'est qu'à titre de démonstration et ne doit pas être entrée dans le shell hive.

CREATE TABLE page_view1(viewTime INT, userid BIGINT,
Page_url STRING, referrer_url STRING,
Ip STRING COMMENT 'Adresse IP de l''utilisateur')
COMMENT 'Ceci est la table des vues de pages'
PARTITIONED BY(dt STRING, country STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '1'
STORED AS SEQUENCEFILE;

Depuis le séparateur de ligne est déterminé par le séparateur dans le système Hadoop plutôt que par Hive, nous ne pouvons pas modifier manuellement le séparateur de ligne.

Normalement, la table dans laquelle les données de colonne sont déterminées est stockée dans un bac, ce qui facilitera l'échantillonnage efficace des requêtes de jeu de données. Si n'y a pas de bac, même si l'échantillonnage aléatoire de la table peut être effectué, il ne peut pas atteindre un échantillonnage efficace dans le processus de balayage de l'ensemble des données. L'exemple suivant montre comment activer le stockage dans des bacs pour la table page_view sur la colonne userid.

La déclaration suivante n'est qu'à titre de démonstration et ne doit pas être entrée dans le shell hive.

CREATE TABLE page_view2(viewTime INT, userid BIGINT,
Page_url STRING, referrer_url STRING,
Ip STRING COMMENT 'Adresse IP de l''utilisateur')
COMMENT 'Ceci est la table des vues de pages'
PARTITIONED BY(dt STRING, country STRING)
CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '1'
COLLECTION ITEMS TERMINATED BY '2'
MAP KEYS TERMINATED BY '3'
STORED AS SEQUENCEFILE;

Dans l'exemple ci-dessus, la colonne userid dans la table est regroupée en 32 bacs par une fonction de hachage. Dans chaque bac, les données sont triées par ordre croissant de viewTime. Cette méthode d'organisation des données permet aux utilisateurs d'échantillonner efficacement les colonnes regroupées (ici la colonne userid), et la fonction de tri permet aux gestionnaires de données d'évaluer les requêtes plus efficacement grâce à de meilleures structures de données.

La déclaration suivante n'est qu'à titre de démonstration et ne doit pas être entrée dans le shell hive.

CREATE TABLE page_view3(viewTime INT, userid BIGINT,
Page_url STRING, referrer_url STRING,
Friends ARRAY<BIGINT>, properties MAP<STRING, STRING>,
Ip STRING COMMENT 'Adresse IP de l''utilisateur')
COMMENT 'Ceci est la table des vues de pages'
PARTITIONED BY(dt STRING, country STRING)
CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '1'
COLLECTION ITEMS TERMINATED BY '2'
MAP KEYS TERMINATED BY '3'
STORED AS SEQUENCEFILE;

Dans l'exemple ci-dessus, le format de chaque ligne dans la table est défini en termes de noms de champs et de types, assez similaire aux définitions de type dans d'autres langages de programmation. Notez que les noms de table et de colonne ne sont pas sensibles à la casse. Adresse IP de l'utilisateur et l'énoncé COMMENT ci-dessous indiquent que nous pouvons ajouter des commentaires aux niveaux de colonne et de table. En outre, la clause PARTITIONED BY définit des colonnes de partitionnement qui sont différentes des colonnes de données. Comme mentionné précédemment, en fait, elles ne stockent pas les données. La clause CLUSTERED BY spécifie quelle colonne utiliser pour créer combien de bacs. La clause ROW FORMAT DELIMITED spécifie comment stocker les lignes dans une table Hive. Pour les formats délimités, cette instruction spécifie comment déterminer le symbole de terminaison d'un champ, comment déterminer le symbole de terminaison d'un élément dans une collection (tableau ou carte), et le symbole de terminaison pour déterminer la clé de carte de terminaison, où les nombres sont en encodage ASCII. STORED AS SEQUENCEFILE indique que les données sont stockées sur HDFS au format binaire (plus précisément le type SequenceFile d'Hadoop). Parmi eux, les paramètres dans les clauses ROW FORMAT et STORED AS sont les valeurs par défaut que Hive utilise actuellement. Donc, nous n'avons pas écrit explicitement dans l'énoncé qui a créé la table au début.

Parcourir les tables et les partitions

Si vous voulez lister les tables existantes dans votre entrepôt, vous pouvez utiliser la déclaration suivante :

SHOW TABLES;

Si il y a beaucoup de tables, la déclaration ci-dessus générera beaucoup d'informations de retour. Vous pouvez réduire la portée en spécifiant un préfixe. Par exemple, si vous voulez lister une table avec le préfixe page, vous pouvez utiliser la déclaration suivante :

SHOW TABLES 'page.*';

Les règles de correspondance dans cette déclaration sont les mêmes que la syntaxe d'expression régulière, et le point (.) représente un joker.

Si vous voulez lister les partitions d'une table, utilisez la déclaration suivante. Si la table n'est pas une table partitionnée, aucune information n'est renvoyée :

SHOW PARTITIONS page_view;

Si vous voulez lister les colonnes et les types de colonnes d'une table, vous pouvez utiliser l'instruction DESCRIBE :

DESCRIBE page_view;

Si vous voulez lister les colonnes de la table et toutes les autres propriétés, vous devez ajouter le mot clé EXTENDED. Cela imprimera beaucoup d'informations, qui sont généralement utilisées pour le débogage :

DESCRIBE EXTENDED page_view;

Modifier une table

Si vous voulez renommer une table existante, utilisez l'instruction ALTER TABLE avec RENAME TO. Si une table avec le nouveau nom existe déjà, une erreur est renvoyée :

ALTER TABLE page_view RENAME TO new_page_view;

Voyez le résultat :

hive> ALTER TABLE page_view RENAME TO new_page_view;
OK
Temps pris : 0,124 secondes
hive> show tables;
OK
new_page_view
...
Temps pris : 0,021 secondes, Récupéré : 4 ligne(s)

Nous pouvons également renommer les colonnes d'une table existante. Cependant, il est important de noter que vous devez utiliser le même type de colonne et inclure une entrée dans chacune des colonnes existantes :

ALTER TABLE new_page_view REPLACE COLUMNS (viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ipaddr STRING COMMENT 'Adresse IP de l''utilisateur');

En outre, vous pouvez ajouter de nouvelles colonnes à une table existante :

ALTER TABLE new_page_view ADD COLUMNS (new_column INT COMMENT 'une nouvelle colonne entière');

Notez que les modifications du schéma (telle que l'ajout d'une colonne) préserveront le schéma pour l'ancienne partition de la table pour empêcher qu'elle ne devienne une table partitionnée. Toutes les requêtes qui accèdent à ces colonnes et s'exécutent sur l'ancienne partition renvoient implicitement des valeurs nulles ou les valeurs par défaut spécifiées pour ces colonnes.

Supprimer les tables et les partitions

Puisque Hive est conçu comme un entrepôt de données, la destruction des données est toujours négative. Par conséquent, l'opération de suppression d'une table est un peu fastidieuse. En utilisant la commande DROP sur la table, vous supprimerez implicitement tous les index construits sur la table.

Vous pouvez utiliser les commandes suivantes pour supprimer une table :

DROP TABLE new_page_view;

Charger et interroger des données

En Hive, charger des données et interroger des données sont deux opérations différentes. Ce document décrit comment charger des données dans une table Hive.

Chargement de données

Il existe plusieurs façons de charger des données dans une table Hive. Les utilisateurs peuvent créer des tables externes qui pointent vers des emplacements spécifiques dans HDFS. Dans cette utilisation, l'utilisateur peut utiliser la commande put ou copy d'HDFS pour copier le fichier de données vers l'emplacement spécifié et créer une table qui pointe vers cet emplacement. Cette table contiendra toutes les informations pertinentes sur le format de ligne.

Une fois créée, les utilisateurs peuvent convertir les données et les insérer dans n'importe quelle autre table Hive. Nous avons téléchargé le fichier log_example.csv sur HDFS au début et l'avons renommé en page_view. Si nous voulons le charger dans la table page_view de la partition correspondante, nous pouvons le faire avec la commande suivante.

Tout d'abord, créez une table externe et associez-la au fichier spécifié :

CREATE EXTERNAL TABLE page_view_stg(viewTime INT, userid BIGINT,
                Page_url STRING, referrer_url STRING,
                Ip STRING COMMENT 'Adresse IP de l''utilisateur',
                Country STRING COMMENT 'pays d''origine')
COMMENT 'Ceci est la table de staging des vues de pages'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '44' LINES TERMINATED BY '\n' STORED AS TEXTFILE
LOCATION '/user/data/staging/page_view';

Ensuite, créez une table page_view pour le stockage final des données :

CREATE TABLE page_view(viewTime INT, userid BIGINT,
                Page_url STRING, referrer_url STRING,
                Ip STRING COMMENT 'Adresse IP de l''utilisateur')
COMMENT 'Ceci est la table des vues de pages'
PARTITIONED BY(dt STRING, country STRING)
STORED AS SEQUENCEFILE;

Enfin, insérez les données de la table externe dans la table page_view :

FROM page_view_stg pvs
INSERT OVERWRITE TABLE page_view
PARTITION(dt='2015-05-17', country='us')
SELECT pvs.viewTime, pvs.userid, pvs.page_url, pvs.referrer_url, pvs.ip
WHERE pvs.country = 'us';

Il peut prendre quelques minutes pour charger les données dans HDFS puis dans la table page_view.

...
Chargement de données dans la table default.page_view partition (dt=2015-05-17, country=us)
Jobs MapReduce lancés :
Étape-Étape-1 : Carte : 1  Réduction : 1   CPU cumulé : 6,31 sec   Lecture HDFS : 369021 Écriture HDFS : 22943 SUCCÈS
Temps CPU total passé dans MapReduce : 6 secondes 310 ms
OK
Temps pris : 25,304 secondes

Requête simple

Après avoir inséré les données, nous pouvons effectuer une requête simple. Cela est similaire à une instruction SQL commune. Entrez l'instruction suivante dans l'interface de ligne de commande d'Hive :

SELECT * FROM page_view WHERE userid = 0 LIMIT 10;

L'information renvoyée est les enregistrements interrogés :

hive> select * from page_view;
OK
NULL	490	/downloads/product_1	/archives/webroot	217.168.17.5	2015-05-17	us
NULL	490	/downloads/product_2	/archives/webroot	217.168.17.5	2015-05-17	us
NULL	3316	/downloads/product_2	/archives/webroot	217.168.17.5	2015-05-17	us
...

Arrêter les services

Si vous voulez en savoir plus sur les instructions d'action d'Hive, vous pouvez lire les extensions suivantes :

Lorsque vous avez fini de l'utiliser, vous pouvez utiliser la commande quit pour quitter l'interface de ligne de commande d'Hive :

quit;

Bien sûr, n'oubliez pas d'arrêter le service HDFS. Entrez la commande suivante dans le terminal :

stop-yarn.sh
stop-dfs.sh

Sommaire

Cette session présente l'architecture d'Hive, son installation et son déploiement, ainsi que les instructions de base de HQL. De plus, nous avons appris à importer des données à l'aide de données d'échantillonnage.

Les principaux points abordés sont :

  • Architecture d'Hive
  • Unité de données de base d'Hive
  • Comment déployer Hive
  • Langage HQL d'Hive

En général, en tant que package logiciel d'entrepôt de données, les fonctionnalités d'Hive doivent être explorées plus avant. Veuillez maintenir l'habitude de réviser activement les documents techniques et continuez à étudier les cours suivants.