Löschen von Dateien in Hadoop
Das Löschen von Dateien im Hadoop Distributed File System (HDFS) ist ein unkomplizierter Vorgang. Der Befehl hadoop fs -rm
wird verwendet, um Dateien oder Verzeichnisse aus HDFS zu löschen.
Löschen einer Datei
Um eine Datei aus HDFS zu löschen, verwenden Sie den folgenden Befehl:
hadoop fs -rm <hdfs_file_path>
Beispielsweise würden Sie den folgenden Befehl ausführen, um die Datei example.txt
aus dem Verzeichnis /user/hadoop
in HDFS zu löschen:
hadoop fs -rm /user/hadoop/example.txt
Löschen eines Verzeichnisses
Um ein Verzeichnis und seinen Inhalt aus HDFS zu löschen, können Sie die Option -r
(rekursiv) verwenden:
hadoop fs -rm -r <hdfs_directory_path>
Beispielsweise würden Sie den folgenden Befehl ausführen, um das Verzeichnis /user/hadoop/data
und seinen gesamten Inhalt zu löschen:
hadoop fs -rm -r /user/hadoop/data
Umgehen des Papierkorbs
Standardmäßig verwendet HDFS ein Papierkorb-Feature, was bedeutet, dass gelöschte Dateien nicht sofort aus dem Dateisystem entfernt werden. Stattdessen werden sie in ein Papierkorb-Verzeichnis verschoben, von wo aus sie bei Bedarf wiederhergestellt werden können. In einigen Fällen möchten Sie jedoch möglicherweise den Papierkorb umgehen und eine Datei endgültig löschen.
Um eine Datei endgültig zu löschen und den Papierkorb zu umgehen, können Sie die Option -skipTrash
verwenden:
hadoop fs -rm -skipTrash <hdfs_file_path>
Dadurch wird die Datei sofort aus HDFS entfernt, ohne in das Papierkorb-Verzeichnis verschoben zu werden.
Das Verständnis der verschiedenen Optionen zum Löschen von Dateien in HDFS hilft Ihnen, Ihre in der Hadoop-Umgebung gespeicherten Daten effektiv zu verwalten.