Introducción
Imagina un escenario en el que estés en un puesto de comercio espacial como recopilador de recursos espaciales. Tu objetivo es administrar y analizar eficientemente los datos almacenados en el Hadoop HDFS utilizando el comando du en el Shell de Hadoop FS. Al comprender cómo utilizar du, podrás recuperar la información de uso de disco de archivos y directorios en tu HDFS.
Recuperar información de uso de disco
En este paso, aprenderás cómo utilizar el comando du para mostrar la información de uso de disco de archivos y directorios en el Hadoop HDFS.
Abra la terminal y siga los pasos siguientes para comenzar.
Cambie al usuario de Hadoop:
su - hadoopEn el directorio principal de su HDFS, cree un directorio de muestra y un archivo:
hdfs dfs -mkdir /user/hadoop/sample_direcho "sample_file" | hdfs dfs -appendToFile - /user/hadoop/sample_dir/sample_file.txtVerifique el uso de disco del directorio
sample_diry escriba los resultados en un archivo de texto:hdfs dfs -du -v /user/hadoop/sample_dir > /home/hadoop/du_result.txtLa salida mostrará el uso de disco del directorio
sample_diren un formato legible para humanos.cat /home/hadoop/du_result.txtSalida:
SIZE DISK_SPACE_CONSUMED_WITH_ALL_REPLICAS FULL_PATH_NAME 12 12 /user/hadoop/sample_dir/sample_file.txt
Analizar el uso de disco de forma recursiva
En este paso, ampliarás tus conocimientos sobre du para analizar el uso de disco de forma recursiva para los directorios en el Hadoop HDFS.
Crea subdirectorios y archivos dentro del directorio
sample_dir:hdfs dfs -mkdir /user/hadoop/sample_dir/sub_direcho "sub_file" | hdfs dfs -appendToFile - /user/hadoop/sample_dir/sub_dir/sub_file.txtVerifica el uso de disco del directorio
sample_dir, incluyendo sus subdirectorios:hdfs dfs -du -s -v /user/hadoop/sample_dir > /home/hadoop/du_result2.txtLa salida mostrará el uso total de disco del directorio
sample_dir, incluyendo sus subdirectorios.cat /home/hadoop/du_result2.txtSalida:
SIZE DISK_SPACE_CONSUMED_WITH_ALL_REPLICAS FULL_PATH_NAME 21 21 /user/hadoop/sample_dir
Resumen
En este laboratorio, nos centramos en utilizar el comando du en el Shell de Hadoop FS para recuperar la información de uso de disco de archivos y directorios en el Hadoop HDFS. Al dominar este comando, puedes administrar y analizar eficientemente el consumo de almacenamiento en tu clúster de Hadoop. Este laboratorio tuvo como objetivo proporcionar experiencia práctica y conocimientos prácticos para los principiantes que buscan mejorar sus habilidades en la gestión de Hadoop HDFS.



