Meisterhaftigkeit bei Hadoop FS Shell du: Effiziente Datenverwaltung in HDFS

Einführung

Stellen Sie sich ein Szenario vor, in dem Sie als Raumressourcen-Sammmler an einem Raumhandelsstützpunkt sind. Ihr Ziel ist es, die in der Hadoop HDFS gespeicherten Daten effizient zu verwalten und zu analysieren, indem Sie den Befehl du in der Hadoop FS Shell verwenden. Indem Sie verstehen, wie man du verwendet, können Sie die Diskplatzverbrauchsinformationen von Dateien und Verzeichnissen in Ihrer HDFS abrufen.

Diskplatzverbrauchsinformationen abrufen

In diesem Schritt lernen Sie, wie man den Befehl du verwendet, um die Diskplatzverbrauchsinformationen für Dateien und Verzeichnisse in der Hadoop HDFS anzuzeigen.

Öffnen Sie das Terminal und folgen Sie den untenstehenden Schritten, um loszulegen.

Wechseln Sie zum Hadoop-Benutzer:
```
su - hadoop
```

Erstellen Sie in Ihrem HDFS-Home-Verzeichnis ein Beispielverzeichnis und eine Datei:

hdfs dfs -mkdir /user/hadoop/sample_dir

echo "sample_file" | hdfs dfs -appendToFile - /user/hadoop/sample_dir/sample_file.txt

Überprüfen Sie den Diskplatzverbrauch des Verzeichnisses sample_dir und geben Sie die Ergebnisse in eine Textdatei ein:
```
hdfs dfs -du -v /user/hadoop/sample_dir > /home/hadoop/du_result.txt
```

Die Ausgabe wird den Diskplatzverbrauch des Verzeichnisses sample_dir im menschenlesbaren Format anzeigen.

cat /home/hadoop/du_result.txt

Ausgabe:

SIZE DISK_SPACE_CONSUMED_WITH_ALL_REPLICAS FULL_PATH_NAME
12 12 /user/hadoop/sample_dir/sample_file.txt

Rekursive Analyse des Diskplatzverbrauchs

In diesem Schritt erweitern Sie Ihre Kenntnisse zu du, um den Diskplatzverbrauch rekursiv für Verzeichnisse in der Hadoop HDFS zu analysieren.

Erstellen Sie Unterverzeichnisse und Dateien im Verzeichnis sample_dir:

hdfs dfs -mkdir /user/hadoop/sample_dir/sub_dir

echo "sub_file" | hdfs dfs -appendToFile - /user/hadoop/sample_dir/sub_dir/sub_file.txt

Überprüfen Sie den Diskplatzverbrauch des Verzeichnisses sample_dir, einschließlich seiner Unterverzeichnisse:
```
hdfs dfs -du -s -v /user/hadoop/sample_dir > /home/hadoop/du_result2.txt
```
Die Ausgabe wird den Gesamt-Diskplatzverbrauch des Verzeichnisses sample_dir, einschließlich seiner Unterverzeichnisse, anzeigen.
```
cat /home/hadoop/du_result2.txt
```
Ausgabe:
```
SIZE DISK_SPACE_CONSUMED_WITH_ALL_REPLICAS FULL_PATH_NAME
21 21 /user/hadoop/sample_dir
```

Zusammenfassung

In diesem Lab haben wir uns darauf konzentriert, den Befehl du in der Hadoop FS Shell zu nutzen, um die Diskplatzverbrauchsinformationen für Dateien und Verzeichnisse in der Hadoop HDFS abzurufen. Indem Sie diesen Befehl beherrschen, können Sie die Speicherauslastung in Ihrem Hadoop-Cluster effizient verwalten und analysieren. Ziel dieses Labs war es, praktische Erfahrungen und Kenntnisse für Einsteiger zu vermitteln, die ihre Fähigkeiten in der Verwaltung der Hadoop HDFS verbessern möchten.