Herrschaft über himmlische Daten

HadoopHadoopBeginner
Jetzt üben

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

Willkommen in die Welt des Übernatürlichen, in der kosmische Kräfte mit menschlicher Existenz verflochten sind. In dieser überirdischen Szenerie wirst du die Rolle von Ezechiel übernehmen, dem himmlischen Führer, der damit betraut ist, das himmlische Wissen zu schützen, das über Zeit und Raum hinausgeht. Deine Mission ist es, die Macht von Hadoop, einer robusten Datenverwaltungspaltform, zu nutzen, um dieses unerschöpfliche Wissen in den himmlischen Reichen zu bewahren und zu verbreiten.

Als Ezechiel überwachst du die himmlischen Archive, ein riesiges Archiv, das das angesammelte Wissen von Jahrhunderten enthält. Allerdings ist das enorme Datenvolumen überwältigend geworden, und du benötigst ein sophistiziertes System, um diese Informationen effizient zu organisieren und zu verteilen. Hier tritt Hadoop als mächtiges Werkzeug auf, das es dir ermöglicht, die himmlischen Erkenntnisse zu laden, zu verarbeiten und mit deinen himmlischen Mitmenschen zu teilen.

Dein Ziel ist es, die Kunst zu meistern, Daten in Hadoops verteiltes Dateisystem und Hive, einem Open-Source-Data-Warehouse-System, das auf Hadoop aufbaut, zu laden und einzufügen. Dadurch wirst du die Geheimnisse der himmlischen Archive enthüllen und gewährleisten, dass das Wissen der Jahrhunderte für diejenigen zugänglich bleibt, die nach Erleuchtung suchen.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL hadoop(("Hadoop")) -.-> hadoop/HadoopHDFSGroup(["Hadoop HDFS"]) hadoop(("Hadoop")) -.-> hadoop/HadoopHiveGroup(["Hadoop Hive"]) hadoop/HadoopHDFSGroup -.-> hadoop/fs_ls("FS Shell ls") hadoop/HadoopHDFSGroup -.-> hadoop/fs_mkdir("FS Shell mkdir") hadoop/HadoopHDFSGroup -.-> hadoop/fs_put("FS Shell copyToLocal/put") hadoop/HadoopHiveGroup -.-> hadoop/manage_db("Managing Database") hadoop/HadoopHiveGroup -.-> hadoop/create_tables("Creating Tables") hadoop/HadoopHiveGroup -.-> hadoop/load_insert_data("Loading and Inserting Data") subgraph Lab Skills hadoop/fs_ls -.-> lab-288984{{"Herrschaft über himmlische Daten"}} hadoop/fs_mkdir -.-> lab-288984{{"Herrschaft über himmlische Daten"}} hadoop/fs_put -.-> lab-288984{{"Herrschaft über himmlische Daten"}} hadoop/manage_db -.-> lab-288984{{"Herrschaft über himmlische Daten"}} hadoop/create_tables -.-> lab-288984{{"Herrschaft über himmlische Daten"}} hadoop/load_insert_data -.-> lab-288984{{"Herrschaft über himmlische Daten"}} end

Kopieren von Daten in das Hadoop Distributed File System (HDFS)

In diesem Schritt lernst du, wie du Daten von deinem lokalen Dateisystem in das Hadoop Distributed File System (HDFS), das Fundament des Hadoop-Ekosystems, übertragst. HDFS ist so konzipiert, dass es große Datenmengen über mehrere Knoten speichert und verwaltet und dabei Datenredundanz und Fehlertoleranz gewährleistet.

Stelle zunächst sicher, dass du als Benutzer hadoop angemeldet bist, indem du folgenden Befehl in der Konsole ausführst:

su - hadoop

Lass uns nun eine Beispiel-Datendatei in deinem lokalen Dateisystem erstellen:

echo "Hello, Celestial Realm" > /home/hadoop/celestial_data.txt

Dieser Befehl erstellt eine Textdatei namens celestial_data.txt mit dem Inhalt "Hello, Celestial Realm!" im Verzeichnis /home/hadoop.

Als Nächstes kopieren wir diese Datei in den HDFS mit dem Befehl hadoop fs:

hadoop fs -mkdir -p /home/hadoop/celestial_archives
hadoop fs -put /home/hadoop/celestial_data.txt /home/hadoop/celestial_archives

Hier ist, was dieser Befehl macht:

  • hadoop fs ist ein Befehlszeilenprogramm zum Interagieren mit dem HDFS.
  • -mkdir: ist ein Unterbefehl des hadoop fs-Befehls zum Erstellen eines Verzeichnisses.
  • -p: ist eine Option, um das übergeordnete Verzeichnis rekursiv zu erstellen. Wenn das übergeordnete Verzeichnis im angegebenen Pfad nicht existiert, wird es zusammen mit ihm erstellt.
  • -put ist die Operation, um eine Datei vom lokalen Dateisystem in den HDFS zu kopieren.
  • /home/hadoop/celestial_data.txt ist der Quell-Dateipfad auf deinem lokalen Dateisystem.
  • /home/hadoop/celestial_archives ist der Zielverzeichnispfad im HDFS.

Nach der Ausführung dieses Befehls solltest du eine Erfolgsmeldung sehen, die bestätigt, dass die Datei in den HDFS kopiert wurde.

Erstellen einer Hive-Tabelle und Laden von Daten

In diesem Schritt lernst du, wie du eine Hive-Tabelle erstellst und die Daten aus dem HDFS in die Tabelle ladest. Hive ist ein leistungsstarkes Data-Warehousing-Tool, das auf Hadoop aufbaut und für die effiziente Datenzusammenfassung, -abfrage und -analyse konzipiert ist.

Lass uns zunächst die Hive-Befehlszeilenschnittstelle (CLI) starten, indem wir folgenden Befehl ausführen:

hive

Dadurch wird die interaktive Hive-Shell geöffnet, in der du Hive-Abfragen und -Befehle ausführen kannst.

Als Nächstes erstellen wir eine neue Hive-Tabelle namens celestial_archives, um unsere Daten zu speichern:

CREATE TABLE celestial_archives (message STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;

Hier ist, was diese Hive-Abfrage macht:

  • CREATE TABLE celestial_archives erstellt eine neue Tabelle namens celestial_archives.
  • (message STRING) definiert eine einzelne Spalte namens message mit einem STRING-Datentyp.
  • ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' gibt an, dass jede Zeile in der Datendatei durch ein Tabulatorzeichen (\t) getrennt ist.
  • STORED AS TEXTFILE zeigt an, dass die Tabellendaten als einfache Textdateien im HDFS gespeichert werden.

Nachdem die Tabelle erstellt wurde, laden wir die Daten aus dem HDFS in die Hive-Tabelle mit dem Befehl LOAD DATA:

LOAD DATA INPATH '/home/hadoop/celestial_archives/celestial_data.txt' INTO TABLE celestial_archives;

Dieser Befehl ladet die Daten aus der Datei /home/hadoop/celestial_archives/celestial_data.txt im HDFS in die Hive-Tabelle celestial_archives.

Schließlich kannst du die Tabelle abfragen, um zu überprüfen, ob die Daten korrekt geladen wurden:

SELECT * FROM celestial_archives;

Diese Abfrage sollte den Inhalt der Tabelle celestial_archives anzeigen, der die Nachricht "Hello, Celestial Realm!" sein sollte.

Zusammenfassung

In diesem Lab hast du die Rolle von Ezechiel übernommen, dem himmlischen Führer, der damit betraut ist, das himmlische Wissen der himmlischen Archive zu schützen. Indem du die Kunst des Ladens und Einfügens von Daten in das Hadoop Distributed File System (HDFS) und Hive beherrschst, hast du einen entscheidenden Schritt in Richtung der Bewahrung und Verbreitung dieses unerschöpflichen Wissens in den himmlischen Reichen gemacht.

Durch praktische Übungen hast du gelernt, wie du Daten von deinem lokalen Dateisystem in den HDFS kopierst, Hive-Tabellen erstellst und Daten aus dem HDFS in diese Tabellen ladest. Indem du diese Aufgaben erledigst, hast du die Geheimnisse der himmlischen Archive enthüllt und gewährleistet, dass das Wissen der Jahrhunderte für diejenigen zugänglich bleibt, die nach Erleuchtung suchen.

Dieses Lab hat dich nicht nur mit praktischen Fähigkeiten bei der Arbeit mit Hadoop und Hive ausgestattet, sondern auch herausgefordert, kreativ zu denken und diese Tools auf eine einzigartige, überirdische Szenerie anzuwenden. Die Reise der Bewahrung des himmlischen Wissens hat erst begonnen, und die Fähigkeiten, die du erworben hast, werden unerschätzt sein, wenn du weiterhin die weiten Gebiete der Datenverwaltung und -analyse erkundest.