Hadoop FS Shell Expunge: Optimieren der HDFS-Speicherung mit Leichtigkeit

Einführung

Willkommen in unserem spannenden Labor, das sich in einer interstellaren Basis befindet, wo Sie die Rolle eines geschickten intergalaktischen Kommunikators übernehmen. In diesem Szenario sind Sie damit betraut, die Hadoop HDFS mit dem FS Shell-Befehl expunge zu verwalten, um die Datenintegrität zu gewährleisten und die Speicherauslastung zu optimieren. Ihre Mission ist es, die effiziente Bereinigung von unnötigen Dateien und Verzeichnissen sicherzustellen, um Speicherplatz zu freigeben und die Systemleistung zu verbessern.

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL hadoop(("Hadoop")) -.-> hadoop/HadoopHDFSGroup(["Hadoop HDFS"]) hadoop/HadoopHDFSGroup -.-> hadoop/hdfs_setup("HDFS Setup") hadoop/HadoopHDFSGroup -.-> hadoop/fs_ls("FS Shell ls") hadoop/HadoopHDFSGroup -.-> hadoop/fs_rm("FS Shell rm") hadoop/HadoopHDFSGroup -.-> hadoop/fs_expunge("FS Shell expunge") subgraph Lab Skills hadoop/hdfs_setup -.-> lab-271869{{"Hadoop FS Shell expunge"}} hadoop/fs_ls -.-> lab-271869{{"Hadoop FS Shell expunge"}} hadoop/fs_rm -.-> lab-271869{{"Hadoop FS Shell expunge"}} hadoop/fs_expunge -.-> lab-271869{{"Hadoop FS Shell expunge"}} end

Aktivieren und Konfigurieren der HDFS-Recyclingfunktion

In diesem Schritt beginnen wir mit dem Zugang zur Hadoop FS Shell und der Untersuchung der aktuellen Dateien und Verzeichnisse im Hadoop Distributed File System.

Öffnen Sie das Terminal und wechseln Sie zum Benutzer hadoop:
```
su - hadoop
```

Ändern Sie /home/hadoop/hadoop/etc/hadoop/core-site.xml, um die Recyclingfunktion zu aktivieren:

nano /home/hadoop/hadoop/etc/hadoop/core-site.xml

Fügen Sie die folgende Eigenschaft zwischen die <configuration>-Tags hinzu:

 <property>
     <name>fs.trash.interval</name>
     <value>1440</value>
 </property>
 <property>
     <name>fs.trash.checkpoint.interval</name>
     <value>1440</value>
 </property>

Speichern Sie die Datei und beenden Sie den Texteditor.

Starten Sie den HDFS-Dienst neu:

Stoppen Sie den HDFS-Dienst:
```
/home/hadoop/hadoop/sbin/stop-dfs.sh
```
Starten Sie den HDFS-Dienst:
```
/home/hadoop/hadoop/sbin/start-dfs.sh
```
Erstellen Sie eine Datei und löschen Sie sie im HDFS:

Erstellen Sie eine Datei im HDFS:
```
hdfs dfs -touchz /user/hadoop/test.txt
```
Löschen Sie die Datei:
```
hdfs dfs -rm /user/hadoop/test.txt
```
Überprüfen Sie, ob die Recyclingfunktion aktiviert ist:
```
hdfs dfs -ls /user/hadoop/.Trash/Current/user/hadoop/
```
Sie sollten die gelöschte Datei im Recyclingverzeichnis sehen.

Entsorgen von unnötigen Dateien

Nun gehen wir zur Entsorgung von unnötigen Dateien und Verzeichnissen über, indem wir den FS Shell-Befehl expunge verwenden.

Entsorgen Sie alle Recycling-Punktkontrollen:
```
hdfs dfs -expunge -immediate
```
Vergewissern Sie sich, dass die unnötigen Dateien erfolgreich entsorgt wurden:
```
hdfs dfs -ls /user/hadoop/.Trash
```
Es sollten keine Dateien oder Verzeichnisse aufgelistet sein.

Zusammenfassung

In diesem Lab haben wir die Macht des Hadoop FS Shell-Befehls expunge untersucht, um die Datenverwaltung und -optimierung im Hadoop Distributed File System durchzuführen. Indem Sie gelernt haben, wie Sie die FS Shell starten, aktuelle Dateien anzeigen und unnötige Daten entsorgen, haben Sie wertvolle Erkenntnisse für das Erhalten der Datenintegrität und die Verbesserung der Systemleistung gewonnen. Das Üben dieser Fähigkeiten wird Sie in der Lage versetzen, Ihre Hadoop-Umgebung effizient zu verwalten und reibungslose Betriebsabläufe sicherzustellen.