Mettre à profit le pouvoir d'Hadoop Hive | Archives de la ville médiévale

Introduction

Dans une ville médiévale, connue pour sa culture vibrante et son histoire riche, un ménestrel errant nommé Alaric s'est trouvé captivé par les contes et les chansons du pays. Alors qu'il errait dans les rues, caressant sa lute, il s'est aperçu que les archives de la ville étaient dans un état lamentable et avaient grand besoin d'être organisées. D'innombrables parchemins et rouleaux étaient éparpillés, remplis d'histoires et de documents du passé, mais la tâche de les trier et de les gérer semblait redoutable.

L'objectif d'Alaric était de créer un système harmonieux où les archives historiques de la ville pourraient être préservées et consultées facilement. Avec son amour pour le récit et son œil perspicace pour l'organisation, il s'est lancé à la recherche pour exploiter le pouvoir d'Hadoop Hive, un outil qui lui permettrait de gérer et de manipuler efficacement les immenses quantités de données.

Explorer les archives de la ville

Dans cette étape, nous allons plonger dans les archives de la ville, où d'innombrables parchemins et rouleaux sont éparpillés, attendant d'être organisés. Notre objectif est de nous familiariser avec les données existantes et de comprendre les défis rencontrés dans la gestion d'une telle collection immense.

Tout d'abord, assurez-vous d'être connecté en tant qu'utilisateur hadoop en exécutant la commande suivante dans le terminal :

su - hadoop

Ici, vous trouverez une collection de fichiers contenant diverses archives et contes du passé de la ville. Pour obtenir une vue d'ensemble des données disponibles, exécutez la commande suivante :

hdfs dfs -ls /home/hadoop/archives

Cette commande listera les fichiers et les répertoires dans le répertoire /home/hadoop/archives du Hadoop Distributed File System (HDFS).

Ensuite, explorons le contenu d'un des fichiers. Nous utiliserons la commande hdfs dfs -cat pour afficher le contenu du fichier :

hdfs dfs -cat /home/hadoop/archives/chronicles/chapter_1.txt

Cette commande affichera le contenu du fichier chapter_1.txt situé dans le sous-répertoire chronicles.

En parcourant les fichiers, vous remarquerez que certains contiennent des informations inutiles ou périmées qui doivent être supprimées ou tronquées. C'est là que le pouvoir d'Hadoop Hive entre en jeu, nous permettant de gérer et de manipuler efficacement les données.

Configuration d'Hive et exploration des données

Dans cette étape, nous allons configurer Hive, un puissant système de stockage de données construit sur Hadoop, et explorer les données existantes dans nos archives.

Tout d'abord, nous ouvrirons l'interface de ligne de commande (CLI) d'Hive :

hive

Une fois dans l'interface CLI d'Hive, nous pouvons créer une nouvelle base de données pour stocker les archives de notre ville :

CREATE DATABASE city_archives;

Maintenant, passons à la base de données nouvellement créée :

USE city_archives;

Pour explorer les données existantes, nous allons créer une nouvelle table et charger les données à partir du répertoire d'archives de notre HDFS :

CREATE EXTERNAL TABLE tmp_chronicles (
  chapter STRING,
  content STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LOCATION '/home/hadoop/archives/chronicles';

Ce code créera une table externe nommée tmp_chronicles avec deux colonnes : chapter et content. Les données de la table seront chargées à partir du répertoire /home/hadoop/archives/chronicles sur le HDFS, et les champs seront délimités par des caractères tabulation.

CREATE TABLE chronicles (
  chapter STRING,
  content STRING
)
STORED AS ORC
TBLPROPERTIES ('transactional'='true');

Ce code créera une table nommée chronicles avec deux colonnes : chapter et content. La clause STORED AS ORC spécifie que les données seront stockées au format de fichier ORC. La clause TBLPROPERTIES spécifie que la table est transactionnelle, ce qui signifie qu'elle prend en charge les transactions ACID.

INSERT INTO TABLE chronicles SELECT * FROM tmp_chronicles;

Ce code insérera toutes les données de la table temporaire tmp_chronicles dans la table chronicles.

Maintenant, nous pouvons interroger la table chronicles pour voir son contenu :

SELECT * FROM chronicles LIMIT 5;

Cette commande affichera les 5 premières lignes de la table chronicles, nous donnant un aperçu des données avec lesquelles nous allons travailler.

Suppression et réinitialisation des données

Dans cette étape, nous allons apprendre à supprimer et à réinitialiser les données de nos tables Hive, ce qui nous permettra de gérer et de maintenir efficacement les archives de la ville.

Parfois, nous devons peut-être supprimer des données périmées ou inutiles de nos tables. Dans Hive, nous pouvons utiliser l'instruction DELETE pour supprimer des lignes spécifiques qui correspondent à une condition donnée.

Par exemple, disons que nous voulons supprimer tous les chapitres qui contiennent le mot "périmé" de la table chronicles :

DELETE FROM chronicles WHERE content LIKE '%périmé%';

Cette commande supprimera toutes les lignes de la table chronicles où la colonne content contient le mot "périmé".

Cependant, si nous voulons supprimer toutes les données d'une table, nous pouvons utiliser l'instruction TRUNCATE au lieu de supprimer les lignes individuellement. Cette opération est plus efficace et plus rapide que la suppression ligne par ligne.

TRUNCATE TABLE chronicles;

Cette commande supprimera toutes les données de la table chronicles, la laissant vide.

En maîtrisant ces techniques de suppression et de réinitialisation, nous pouvons maintenir l'intégrité et la pertinence de nos archives de la ville, en veillant à ce que seule l'information la plus précieuse et la plus à jour soit conservée.

Résumé

Dans ce laboratoire, nous avons entrepris un voyage pour organiser et maintenir les archives de la ville à l'aide d'Hadoop Hive. À travers les yeux d'Alaric, le ménestrel errant, nous avons exploré les défis de la gestion de vastes collections d'archives historiques et avons appris à exploiter le pouvoir d'Hive pour supprimer et réinitialiser efficacement les données.

En plongeant dans le répertoire d'archives et en configurant Hive, nous avons acquis une expérience pratique dans la création de bases de données, de tables et le chargement de données dans Hive. Nous avons ensuite maîtrisé l'art de supprimer des lignes spécifiques et de réinitialiser des tables complètes, ce qui nous a permis d'éliminer des informations périmées ou inutiles des archives de la ville.

Au cours de tout ce laboratoire, nous avons non seulement acquis des compétences pratiques en gestion de données, mais avons également découvert la beauté de la combinaison du récit d'histoire avec la technologie. La quête d'Alaric pour préserver le riche patrimoine culturel de la ville est un rappel que les données ne sont pas seulement des chiffres et des statistiques ; c'est un tapis d'histoires attendant d'être tissées et partagées.

Recherche d'harmonie dans les données historiques

Introduction

Explorer les archives de la ville

Configuration d'Hive et exploration des données

Suppression et réinitialisation des données

Résumé