Optimiere die Raumressourcenallokation mit Hadoop

Einführung

Willkommen an der Intergalaktischen Handelsstation, einem belebten Treffpunkt, an dem Händler und Reisende aus der ganzen Galaxis zusammenkommen, um Waren und Dienstleistungen auszutauschen. Als erfahrener Weltraumstation-Mechaniker werden Ihre Kenntnisse in hohem Maße benötigt, um die Systeme der Station reibungslos laufen zu lassen. Heute haben Sie die Aufgabe, die Ressourcenallokation der Station zu analysieren und zu optimieren, indem Sie Daten basierend auf Verbrauchsmustern sortieren.

Ihr Ziel ist es, eine auf Hadoop basierende Lösung zu entwickeln, die große Datensätze effizient verarbeiten und sortieren kann, um sicherzustellen, dass die Ressourcen der Station effizient zugewiesen werden, um die sich ständig ändernden Anforderungen ihrer vielfältigen Besucher zu entsprechen.

Stellen Sie die Umgebung ein

In diesem Schritt werden wir die Umgebung für unser Hadoop-Projekt einrichten und einen Beispiel-Datensatz erstellen.

Öffnen Sie ein Terminal und wechseln Sie zum Benutzer hadoop, indem Sie den folgenden Befehl ausführen:

su - hadoop

Erstellen Sie ein neues Verzeichnis namens sorting_lab im Verzeichnis /home/hadoop:

mkdir /home/hadoop/sorting_lab

Navigieren Sie zum Verzeichnis sorting_lab:

cd /home/hadoop/sorting_lab

Erstellen Sie einen Beispiel-Datensatz, indem Sie den folgenden Befehl ausführen:

echo -e "apple\t5\nbanana\t3\norange\t7\ngrape\t2\nstrawberry\t6" > fruit_sales.txt

Dieser Befehl erstellt eine Datei namens fruit_sales.txt mit den folgenden Inhalten:

apple   5
banana  3
orange  7
grape   2
strawberry  6

Jede Zeile in der Datei stellt eine Frucht und ihre Verkaufszahl dar, getrennt durch ein Tabulatorzeichen.

Laden Sie Daten in Hive

In diesem Schritt werden wir eine Hive-Tabelle erstellen und den Beispiel-Datensatz in sie laden.

Starten Sie die Hive-Shell, indem Sie den folgenden Befehl ausführen:

hive

Erstellen Sie eine neue Datenbank namens sorting_db:

CREATE DATABASE sorting_db;

Verwenden Sie die Datenbank sorting_db:

USE sorting_db;

Erstellen Sie eine neue Tabelle namens fruit_sales mit zwei Spalten: fruit (Zeichenfolge) und count (ganze Zahl):

CREATE TABLE fruit_sales (fruit STRING, count INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

Laden Sie die Datei fruit_sales.txt in die Tabelle fruit_sales:

LOAD DATA LOCAL INPATH '/home/hadoop/sorting_lab/fruit_sales.txt' OVERWRITE INTO TABLE fruit_sales;

Überprüfen Sie, ob die Daten korrekt geladen wurden, indem Sie eine SELECT-Abfrage ausführen:

SELECT * FROM fruit_sales;

Dies sollte die folgende Ausgabe erzeugen:

apple   5
banana  3
orange  7
grape   2
strawberry  6

Beenden Sie die Hive-Shell, indem Sie den folgenden Befehl ausführen:

quit;

Sortieren Sie die Daten nach Verbrauch

In diesem Schritt werden wir die Tabelle fruit_sales mithilfe der ORDER BY-Klausel in Hive nach der Spalte count in absteigender Reihenfolge sortieren.

Starten Sie die Hive-Shell, indem Sie den folgenden Befehl ausführen:

hive

Verwenden Sie die Datenbank sorting_db:

USE sorting_db;

Führen Sie die folgende Abfrage aus, um die Tabelle fruit_sales nach der Spalte count in absteigender Reihenfolge zu sortieren:

CREATE TABLE result AS
SELECT * FROM fruit_sales ORDER BY count DESC;
SELECT * FROM result;

Dies sollte die folgende Ausgabe erzeugen:

orange  7
strawberry  6
apple   5
banana  3
grape   2

Beenden Sie die Hive-Shell, indem Sie den folgenden Befehl ausführen:

quit;

Zusammenfassung

In diesem Lab haben wir die Funktion "Sortieren nach Verbrauch" in Hadoop Hive untersucht. Wir haben begonnen, indem wir die Umgebung eingerichtet und einen Beispiel-Datensatz erstellt haben. Anschließend haben wir gelernt, wie man die Daten in eine Hive-Tabelle lädt und die Tabelle nach einer bestimmten Spalte mit der ORDER BY-Klausel sortiert.

Das Lab hat praktische Erfahrungen bei der Arbeit mit Hive vermittelt und gezeigt, wie man Daten basierend auf Verbrauchsmustern sortiert. Indem Sie diese Fähigkeit beherrschen, können Sie in verschiedenen Szenarien, wie der Intergalaktischen Handelsstation, die Ressourcenallokation effizient analysieren und optimieren.

Während des gesamten Labs haben wir auch Prüfungen verwendet, um die erfolgreiche Durchführung jedes Schritts zu verifizieren und sicherzustellen, dass Sie die erforderlichen Kenntnisse und praktischen Erfahrungen erworben haben, um zukünftige ähnliche Herausforderungen anzugehen.

Raumressourcenoptimierung mit Hadoop

Einführung

Stellen Sie die Umgebung ein

Laden Sie Daten in Hive

Sortieren Sie die Daten nach Verbrauch

Zusammenfassung