Die Suche nach der Harmonie historischer Daten

HadoopHadoopBeginner
Jetzt üben

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In einer mittelalterlichen Stadt, berühmt für ihre lebendige Kultur und reiche Geschichte, fand sich ein streunender Minnesänger namens Alaric von den Geschichten und Liedern der Region fasziniert. Als er die Straßen entlang zog und seine Laute strich, stellte er fest, dass die Stadtarchive dringend organisiert werden mussten. Unzählige Pergamente und Rollen lagen zerstreut herum, gefüllt mit Geschichten und Aufzeichnungen aus der Vergangenheit, aber die Aufgabe, sie zu sortieren und zu verwalten, schien unüberwindlich.

Alarics Ziel war es, ein harmonisches System zu schaffen, in dem die historischen Aufzeichnungen der Stadt leicht zu bewahren und zugänglich wären. Mit seiner Liebe zur Geschichtenerzählung und seinem scharfen Auge für Organisation machte er sich auf die Suche, um die Macht von Hadoop Hive zu nutzen, ein Tool, das es ihm ermöglichen würde, die riesigen Datenmengen effizient zu verwalten und zu manipulieren.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL hadoop(("Hadoop")) -.-> hadoop/HadoopHDFSGroup(["Hadoop HDFS"]) hadoop(("Hadoop")) -.-> hadoop/HadoopHiveGroup(["Hadoop Hive"]) hadoop/HadoopHDFSGroup -.-> hadoop/fs_cat("FS Shell cat") hadoop/HadoopHDFSGroup -.-> hadoop/fs_ls("FS Shell ls") hadoop/HadoopHiveGroup -.-> hadoop/hive_setup("Hive Setup") hadoop/HadoopHiveGroup -.-> hadoop/manage_db("Managing Database") hadoop/HadoopHiveGroup -.-> hadoop/create_tables("Creating Tables") hadoop/HadoopHiveGroup -.-> hadoop/delete_truncate_data("Deleting and Truncating Data") hadoop/HadoopHiveGroup -.-> hadoop/where("where Usage") subgraph Lab Skills hadoop/fs_cat -.-> lab-288965{{"Die Suche nach der Harmonie historischer Daten"}} hadoop/fs_ls -.-> lab-288965{{"Die Suche nach der Harmonie historischer Daten"}} hadoop/hive_setup -.-> lab-288965{{"Die Suche nach der Harmonie historischer Daten"}} hadoop/manage_db -.-> lab-288965{{"Die Suche nach der Harmonie historischer Daten"}} hadoop/create_tables -.-> lab-288965{{"Die Suche nach der Harmonie historischer Daten"}} hadoop/delete_truncate_data -.-> lab-288965{{"Die Suche nach der Harmonie historischer Daten"}} hadoop/where -.-> lab-288965{{"Die Suche nach der Harmonie historischer Daten"}} end

Das Entdecken der Stadtarchive

In diesem Schritt werden wir in die Stadtarchive eintauchen, in denen unzählige Pergamente und Rollen zerstreut liegen und auf die Organisation warten. Unser Ziel ist es, uns mit den vorhandenen Daten vertraut zu machen und die Herausforderungen zu verstehen, die bei der Verwaltung einer so großen Sammlung auftauchen.

Stellen Sie zunächst sicher, dass Sie als Benutzer hadoop angemeldet sind, indem Sie den folgenden Befehl in der Konsole ausführen:

su - hadoop

Hier finden Sie eine Sammlung von Dateien, die verschiedene Aufzeichnungen und Geschichten aus der Vergangenheit der Stadt enthalten. Um einen Überblick über die verfügbaren Daten zu erhalten, führen Sie den folgenden Befehl aus:

hdfs dfs -ls /home/hadoop/archives

Dieser Befehl listet die Dateien und Verzeichnisse im Verzeichnis /home/hadoop/archives auf dem Hadoop Distributed File System (HDFS).

Als Nächstes werden wir den Inhalt einer der Dateien erkunden. Wir verwenden den Befehl hdfs dfs -cat, um den Inhalt der Datei anzuzeigen:

hdfs dfs -cat /home/hadoop/archives/chronicles/chapter_1.txt

Dieser Befehl zeigt den Inhalt der Datei chapter_1.txt im Unterverzeichnis chronicles an.

Wenn Sie durch die Dateien blättern, werden Sie feststellen, dass einige irrelevante oder veraltete Informationen enthalten, die entfernt oder abgeschnitten werden müssen. Hier kommt die Macht von Hadoop Hive zum Tragen, die es uns ermöglicht, die Daten effizient zu verwalten und zu manipulieren.

Einrichten von Hive und das Entdecken von Daten

In diesem Schritt werden wir Hive einrichten, ein leistungsstarkes Datenlager-System, das auf Hadoop aufgebaut ist, und die vorhandenen Daten in unseren Archiven erkunden.

Zunächst öffnen wir die Hive-Befehlszeilenschnittstelle:

hive

Innerhalb der Hive-Befehlszeilenschnittstelle können wir eine neue Datenbank erstellen, um unsere Stadtarchive zu speichern:

CREATE DATABASE city_archives;

Nun wechseln wir zur neu erstellten Datenbank:

USE city_archives;

Um die vorhandenen Daten zu erkunden, erstellen wir eine neue Tabelle und laden die Daten aus unserem HDFS-Archivverzeichnis:

CREATE EXTERNAL TABLE tmp_chronicles (
  chapter STRING,
  content STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LOCATION '/home/hadoop/archives/chronicles';

Dieser Code wird eine externe Tabelle namens tmp_chronicles mit zwei Spalten erstellen: chapter und content. Die Daten der Tabelle werden aus dem Verzeichnis /home/hadoop/archives/chronicles auf HDFS geladen, und die Felder werden durch Tabulatorzeichen getrennt.

CREATE TABLE chronicles (
  chapter STRING,
  content STRING
)
STORED AS ORC
TBLPROPERTIES ('transactional'='true');

Dieser Code wird eine Tabelle namens chronicles mit zwei Spalten erstellen: chapter und content. Die STORED AS ORC-Klausel gibt an, dass die Daten im ORC-Dateiformat gespeichert werden sollen. Die TBLPROPERTIES-Klausel gibt an, dass die Tabelle transaktionsfähig ist, was bedeutet, dass sie ACID-Transaktionen unterstützt.

INSERT INTO TABLE chronicles SELECT * FROM tmp_chronicles;

Dieser Code wird alle Daten aus der temporären Tabelle tmp_chronicles in die Tabelle chronicles einfügen.

Jetzt können wir die Tabelle chronicles abfragen, um ihren Inhalt zu sehen:

SELECT * FROM chronicles LIMIT 5;

Dieser Befehl wird die ersten 5 Zeilen der Tabelle chronicles anzeigen und uns einen ersten Eindruck von den Daten geben, mit denen wir arbeiten werden.

Löschen und Zurücksetzen von Daten

In diesem Schritt werden wir lernen, wie wir Daten aus unseren Hive-Tabellen löschen und zurücksetzen, was uns ermöglicht, die Stadtarchive effizient zu verwalten und aufrechtzuerhalten.

Manchmal müssen wir veraltete oder irrelevante Daten aus unseren Tabellen entfernen. In Hive können wir die DELETE-Anweisung verwenden, um bestimmte Zeilen zu entfernen, die einer bestimmten Bedingung entsprechen.

Nehmen wir beispielsweise an, dass wir alle Kapitel aus der Tabelle chronicles entfernen möchten, die das Wort "veraltet" enthalten:

DELETE FROM chronicles WHERE content LIKE '%veraltet%';

Dieser Befehl wird alle Zeilen aus der Tabelle chronicles löschen, in denen die content-Spalte das Wort "veraltet" enthält.

Wenn wir jedoch alle Daten aus einer Tabelle entfernen möchten, können wir statt einzelne Zeilen zu löschen die TRUNCATE-Anweisung verwenden. Diese Operation ist effizienter und schneller als das einzelne Löschen von Zeilen.

TRUNCATE TABLE chronicles;

Dieser Befehl wird alle Daten aus der Tabelle chronicles entfernen und diese leer lassen.

Indem wir diese Lösch- und Zurücksetzungstechniken beherrschen, können wir die Integrität und Relevanz unserer Stadtarchive aufrechterhalten und sicherstellen, dass nur die wertvollsten und aktuellsten Informationen beibehalten werden.

Zusammenfassung

In diesem Lab haben wir eine Reise unternommen, um die Stadtarchive mit Hadoop Hive zu organisieren und aufrechtzuerhalten. Durch die Augen von Alaric, dem streunenden Minnesänger, haben wir die Herausforderungen der Verwaltung großer Sammlungen historischer Aufzeichnungen erforscht und gelernt, wie wir die Macht von Hive nutzen können, um Daten effizient zu löschen und zurückzusetzen.

Indem wir in das Archivverzeichnis eintauchen und Hive einrichten, haben wir praktische Erfahrungen bei der Erstellung von Datenbanken, Tabellen und beim Laden von Daten in Hive gemacht. Wir haben dann die Kunst des Löschens von bestimmten Zeilen und des Zurücksetzens ganzer Tabellen beherrscht, was uns ermöglicht, veraltete oder irrelevante Informationen aus den Stadtarchiven zu entfernen.

Während des gesamten Labs haben wir nicht nur praktische Fähigkeiten im Umgang mit Daten erworben, sondern auch die Schönheit der Verbindung von Geschichtenerzählung und Technologie entdeckt. Alarics Suche, das reiche kulturelle Erbe der Stadt zu bewahren, ist ein Erinnerung daran, dass Daten mehr sind als nur Zahlen und Figuren; es ist ein Teppich von Geschichten, die gewoben und geteilt werden möchten.