Hadoop FS Shell du

HadoopBeginner
Practicar Ahora

Introducción

Imagina un escenario en el que estés en un puesto de comercio espacial como recopilador de recursos espaciales. Tu objetivo es administrar y analizar eficientemente los datos almacenados en el Hadoop HDFS utilizando el comando du en el Shell de Hadoop FS. Al comprender cómo utilizar du, podrás recuperar la información de uso de disco de archivos y directorios en tu HDFS.

Recuperar información de uso de disco

En este paso, aprenderás cómo utilizar el comando du para mostrar la información de uso de disco de archivos y directorios en el Hadoop HDFS.

Abra la terminal y siga los pasos siguientes para comenzar.

  1. Cambie al usuario de Hadoop:

    su - hadoop
    
  2. En el directorio principal de su HDFS, cree un directorio de muestra y un archivo:

    hdfs dfs -mkdir /user/hadoop/sample_dir
    
    echo "sample_file" | hdfs dfs -appendToFile - /user/hadoop/sample_dir/sample_file.txt
    
  3. Verifique el uso de disco del directorio sample_dir y escriba los resultados en un archivo de texto:

    hdfs dfs -du -v /user/hadoop/sample_dir > /home/hadoop/du_result.txt
    
  4. La salida mostrará el uso de disco del directorio sample_dir en un formato legible para humanos.

    cat /home/hadoop/du_result.txt
    

    Salida:

    SIZE DISK_SPACE_CONSUMED_WITH_ALL_REPLICAS FULL_PATH_NAME
    12 12 /user/hadoop/sample_dir/sample_file.txt
    

Analizar el uso de disco de forma recursiva

En este paso, ampliarás tus conocimientos sobre du para analizar el uso de disco de forma recursiva para los directorios en el Hadoop HDFS.

  1. Crea subdirectorios y archivos dentro del directorio sample_dir:

    hdfs dfs -mkdir /user/hadoop/sample_dir/sub_dir
    
    echo "sub_file" | hdfs dfs -appendToFile - /user/hadoop/sample_dir/sub_dir/sub_file.txt
    
  2. Verifica el uso de disco del directorio sample_dir, incluyendo sus subdirectorios:

    hdfs dfs -du -s -v /user/hadoop/sample_dir > /home/hadoop/du_result2.txt
    
  3. La salida mostrará el uso total de disco del directorio sample_dir, incluyendo sus subdirectorios.

    cat /home/hadoop/du_result2.txt
    

    Salida:

    SIZE DISK_SPACE_CONSUMED_WITH_ALL_REPLICAS FULL_PATH_NAME
    21 21 /user/hadoop/sample_dir
    

Resumen

En este laboratorio, nos centramos en utilizar el comando du en el Shell de Hadoop FS para recuperar la información de uso de disco de archivos y directorios en el Hadoop HDFS. Al dominar este comando, puedes administrar y analizar eficientemente el consumo de almacenamiento en tu clúster de Hadoop. Este laboratorio tuvo como objetivo proporcionar experiencia práctica y conocimientos prácticos para los principiantes que buscan mejorar sus habilidades en la gestión de Hadoop HDFS.