Einrichten von Hive und das Entdecken von Daten
In diesem Schritt werden wir Hive einrichten, ein leistungsstarkes Datenlager-System, das auf Hadoop aufgebaut ist, und die vorhandenen Daten in unseren Archiven erkunden.
Zunächst öffnen wir die Hive-Befehlszeilenschnittstelle:
hive
Innerhalb der Hive-Befehlszeilenschnittstelle können wir eine neue Datenbank erstellen, um unsere Stadtarchive zu speichern:
CREATE DATABASE city_archives;
Nun wechseln wir zur neu erstellten Datenbank:
USE city_archives;
Um die vorhandenen Daten zu erkunden, erstellen wir eine neue Tabelle und laden die Daten aus unserem HDFS-Archivverzeichnis:
CREATE EXTERNAL TABLE tmp_chronicles (
chapter STRING,
content STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LOCATION '/home/hadoop/archives/chronicles';
Dieser Code wird eine externe Tabelle namens tmp_chronicles
mit zwei Spalten erstellen: chapter
und content
. Die Daten der Tabelle werden aus dem Verzeichnis /home/hadoop/archives/chronicles
auf HDFS geladen, und die Felder werden durch Tabulatorzeichen getrennt.
CREATE TABLE chronicles (
chapter STRING,
content STRING
)
STORED AS ORC
TBLPROPERTIES ('transactional'='true');
Dieser Code wird eine Tabelle namens chronicles
mit zwei Spalten erstellen: chapter
und content
. Die STORED AS ORC
-Klausel gibt an, dass die Daten im ORC-Dateiformat gespeichert werden sollen. Die TBLPROPERTIES
-Klausel gibt an, dass die Tabelle transaktionsfähig ist, was bedeutet, dass sie ACID-Transaktionen unterstützt.
INSERT INTO TABLE chronicles SELECT * FROM tmp_chronicles;
Dieser Code wird alle Daten aus der temporären Tabelle tmp_chronicles
in die Tabelle chronicles
einfügen.
Jetzt können wir die Tabelle chronicles
abfragen, um ihren Inhalt zu sehen:
SELECT * FROM chronicles LIMIT 5;
Dieser Befehl wird die ersten 5 Zeilen der Tabelle chronicles
anzeigen und uns einen ersten Eindruck von den Daten geben, mit denen wir arbeiten werden.