Suppression de fichiers dans Hadoop
La suppression de fichiers dans le Hadoop Distributed File System (HDFS) est un processus simple. La commande hadoop fs -rm
est utilisée pour supprimer des fichiers ou des répertoires du HDFS.
Suppression d'un fichier
Pour supprimer un fichier du HDFS, utilisez la commande suivante :
hadoop fs -rm <hdfs_file_path>
Par exemple, pour supprimer le fichier example.txt
du répertoire /user/hadoop
dans le HDFS, vous exécuteriez :
hadoop fs -rm /user/hadoop/example.txt
Suppression d'un répertoire
Pour supprimer un répertoire et son contenu du HDFS, vous pouvez utiliser l'option -r
(récursive) :
hadoop fs -rm -r <hdfs_directory_path>
Par exemple, pour supprimer le répertoire /user/hadoop/data
et tout son contenu, vous exécuteriez :
hadoop fs -rm -r /user/hadoop/data
Contournement de la corbeille
Par défaut, le HDFS utilise une fonctionnalité de corbeille, ce qui signifie que les fichiers supprimés ne sont pas immédiatement supprimés du système de fichiers. Au lieu de cela, ils sont déplacés dans un répertoire de corbeille, où ils peuvent être restaurés si nécessaire. Cependant, dans certains cas, vous pouvez vouloir contourner la corbeille et supprimer définitivement un fichier.
Pour supprimer définitivement un fichier en contournant la corbeille, vous pouvez utiliser l'option -skipTrash
:
hadoop fs -rm -skipTrash <hdfs_file_path>
Cela supprimera immédiatement le fichier du HDFS sans le déplacer dans le répertoire de corbeille.
Comprendre les différentes options de suppression de fichiers dans le HDFS vous aidera à gérer efficacement vos données stockées dans l'écosystème Hadoop.