Erstellen einer Datei in Hadoop
Zugriff auf den Hadoop-Cluster
Um eine Datei in Hadoop zu erstellen, müssen Sie zunächst auf den Hadoop-Cluster zugreifen. Dies können Sie tun, indem Sie sich mit SSH auf dem Hadoop-Masternode anmelden. Vorausgesetzt, Sie haben die erforderlichen Zugangsdaten, können Sie den folgenden Befehl verwenden, um eine Verbindung zum Hadoop-Cluster herzustellen:
ssh username@hadoop-master-node
Erstellen einer Datei im HDFS
Sobald Sie eine Verbindung zum Hadoop-Cluster hergestellt haben, können Sie eine Datei im Hadoop Distributed File System (HDFS) mithilfe der Befehlszeilenschnittstelle hdfs
erstellen. Hier ist die allgemeine Syntax:
hdfs dfs -put <local-file-path> <hdfs-file-path>
Ersetzen Sie <local-file-path>
durch den Pfad zur Datei auf Ihrem lokalen Rechner und <hdfs-file-path>
durch den gewünschten Pfad im HDFS, an dem Sie die Datei erstellen möchten.
Beispielsweise würden Sie den folgenden Befehl ausführen, um eine Datei mit dem Namen example.txt
im Verzeichnis /user/username/
im HDFS zu erstellen:
hdfs dfs -put /path/to/example.txt /user/username/example.txt
Überprüfen der Dateierstellung
Nachdem Sie die Datei im HDFS erstellt haben, können Sie deren Existenz mithilfe des Befehls hdfs dfs -ls
überprüfen:
hdfs dfs -ls /user/username/
Dies listet alle Dateien und Verzeichnisse im Verzeichnis /user/username/
auf, einschließlich der neu erstellten Datei example.txt
.
Umgang mit großen Dateien
Wenn Sie mit großen Dateien arbeiten, müssen Sie möglicherweise die Datei in kleinere Teile aufteilen, bevor Sie sie in das HDFS hochladen. Dies kann mithilfe des Befehls split
in Linux erfolgen. Beispielsweise können Sie den folgenden Befehl ausführen, um eine 1-GB-Datei mit dem Namen large_file.txt
in 100-MB-Teile aufzuteilen:
split -b 100m large_file.txt large_file_
Dadurch werden mehrere Dateien mit den Namen large_file_aa
, large_file_ab
, large_file_ac
usw. erstellt. Anschließend können Sie diese kleineren Dateien mithilfe des Befehls hdfs dfs -put
in das HDFS hochladen.