Cómo mostrar información de uso del disco de archivos y directorios Hadoop HDFS

HadoopHadoopBeginner
Practicar Ahora

💡 Este tutorial está traducido por IA desde la versión en inglés. Para ver la versión original, puedes hacer clic aquí

Introducción

En este tutorial, exploraremos los pasos para mostrar la información de uso del disco de archivos y directorios de Hadoop HDFS. Comprender la utilización del almacenamiento de su clúster de Hadoop es crucial para la gestión eficiente de recursos y la optimización de sus flujos de trabajo de procesamiento de datos.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL hadoop(("Hadoop")) -.-> hadoop/HadoopHDFSGroup(["Hadoop HDFS"]) hadoop/HadoopHDFSGroup -.-> hadoop/fs_du("FS Shell du") hadoop/HadoopHDFSGroup -.-> hadoop/fs_tail("FS Shell tail") hadoop/HadoopHDFSGroup -.-> hadoop/fs_stat("FS Shell stat") subgraph Lab Skills hadoop/fs_du -.-> lab-415053{{"Cómo mostrar información de uso del disco de archivos y directorios Hadoop HDFS"}} hadoop/fs_tail -.-> lab-415053{{"Cómo mostrar información de uso del disco de archivos y directorios Hadoop HDFS"}} hadoop/fs_stat -.-> lab-415053{{"Cómo mostrar información de uso del disco de archivos y directorios Hadoop HDFS"}} end

Comprender la arquitectura de HDFS

El Sistema de Archivos Distribuido de Hadoop (Hadoop Distributed File System, HDFS) es el sistema de almacenamiento principal utilizado por las aplicaciones de Hadoop. HDFS está diseñado para almacenar y procesar grandes cantidades de datos en un entorno de computación distribuida. Proporciona acceso de alto rendimiento a los datos de la aplicación y es tolerante a fallos, escalable y altamente disponible.

Arquitectura de HDFS

HDFS sigue una arquitectura maestro-esclavo, que consta de los siguientes componentes clave:

NameNode

El NameNode es el nodo maestro en la arquitectura de HDFS. Es responsable de administrar el espacio de nombres del sistema de archivos, incluyendo el árbol de directorios y los metadatos de todos los archivos y directorios en el árbol. El NameNode también coordina el acceso a los archivos por parte de los clientes.

DataNodes

Los DataNodes son los nodos esclavos en la arquitectura de HDFS. Son responsables de almacenar los bloques de datos reales y atender las solicitudes de lectura y escritura de los clientes. Los DataNodes también realizan la creación, eliminación y replicación de bloques según las instrucciones del NameNode.

Cliente

El cliente es la aplicación o usuario que interactúa con HDFS. Los clientes pueden realizar diversas operaciones, como crear, eliminar y modificar archivos y directorios, así como leer y escribir datos en el sistema de archivos.

graph TD NameNode -- Metadata --> DataNodes Client -- Read/Write --> DataNodes DataNodes -- Data Blocks --> NameNode

El NameNode mantiene el espacio de nombres del sistema de archivos y la asignación de archivos a los DataNodes, mientras que los DataNodes almacenan los bloques de datos reales. Los clientes interactúan con el NameNode para obtener información sobre la ubicación de los bloques de datos y luego acceden directamente a los DataNodes para leer o escribir datos.

Replicación de datos de HDFS

HDFS proporciona replicación de datos para garantizar la tolerancia a fallos y la alta disponibilidad. De forma predeterminada, HDFS replica cada bloque de datos tres veces, almacenando las réplicas en diferentes DataNodes. Esto garantiza que los datos sigan estando disponibles incluso si uno o más DataNodes fallan.

Tamaño de bloque de HDFS

HDFS utiliza un tamaño de bloque grande, típicamente 128 MB, para minimizar la sobrecarga de administrar muchos archivos pequeños. Esta elección de diseño se basa en la suposición de que la mayoría de las aplicaciones de Hadoop procesan grandes cantidades de datos, y el tamaño de bloque grande ayuda a reducir el número de búsquedas en el disco y mejorar el rendimiento general.

Al comprender la arquitectura de HDFS y sus componentes clave, puede entender mejor cómo administrar e interactuar con el sistema de archivos, incluyendo la verificación de la información de uso del disco de archivos y directorios de HDFS.

Verificar el uso del disco de archivos HDFS

Para verificar el uso del disco de un archivo HDFS, puede utilizar la herramienta de línea de comandos hdfs. El comando hdfs proporciona varios subcomandos para interactuar con el sistema de archivos HDFS, incluyendo el subcomando du (uso del disco).

Usar el comando hdfs du

El comando hdfs du le permite recuperar la información de uso del disco de un archivo HDFS. La sintaxis básica es la siguiente:

hdfs du <file_path>

Reemplace <file_path> con la ruta del archivo HDFS del que desea verificar el uso del disco.

Por ejemplo, para verificar el uso del disco del archivo /user/labex/data.txt en HDFS, puede ejecutar el siguiente comando:

hdfs du /user/labex/data.txt

La salida del comando hdfs du mostrará el tamaño del archivo en bytes.

1024 /user/labex/data.txt

En este ejemplo, el archivo /user/labex/data.txt está utilizando 1024 bytes de espacio en disco en HDFS.

Mostrar el uso del disco en un formato legible para humanos

Para mostrar el uso del disco en un formato más legible para humanos, puede utilizar la opción -h (legible para humanos) con el comando hdfs du:

hdfs du -h <file_path>

Esto mostrará el tamaño del archivo en un formato más legible, como kilobytes (KB), megabytes (MB) o gigabytes (GB).

1 KB /user/labex/data.txt

Al utilizar el comando hdfs du con la opción -h, puede verificar fácilmente el uso del disco de archivos HDFS y obtener la información en un formato fácil de entender.

Verificar el uso del disco de directorios HDFS

Para verificar el uso del disco de un directorio HDFS, puede utilizar la herramienta de línea de comandos hdfs con el subcomando du (uso del disco). El comando hdfs du le permite recuperar la información de uso del disco de un directorio HDFS y su contenido.

Usar el comando hdfs du para directorios

La sintaxis básica para verificar el uso del disco de un directorio HDFS es la siguiente:

hdfs du <directory_path>

Reemplace <directory_path> con la ruta del directorio HDFS del que desea verificar el uso del disco.

Por ejemplo, para verificar el uso del disco del directorio /user/labex/data en HDFS, puede ejecutar el siguiente comando:

hdfs du /user/labex/data

La salida del comando hdfs du mostrará el uso del disco de cada archivo y subdirectorio dentro del directorio especificado, así como el uso total del disco del directorio completo.

1024 /user/labex/data/file1.txt
2048 /user/labex/data/file2.txt
512 /user/labex/data/subdir
3584 /user/labex/data

En este ejemplo, el directorio /user/labex/data está utilizando un total de 3584 bytes de espacio en disco en HDFS.

Mostrar el uso del disco en un formato legible para humanos

Al igual que al verificar el uso del disco de archivos individuales, puede utilizar la opción -h (legible para humanos) con el comando hdfs du para mostrar el uso del disco en un formato más legible:

hdfs du -h <directory_path>

Esto mostrará el uso del disco en un formato como kilobytes (KB), megabytes (MB) o gigabytes (GB).

1 KB /user/labex/data/file1.txt
2 KB /user/labex/data/file2.txt
512 B /user/labex/data/subdir
3.5 KB /user/labex/data

Al utilizar el comando hdfs du con la opción -h, puede verificar fácilmente el uso del disco de directorios HDFS y obtener la información en un formato fácil de entender.

Resumen

Al final de este tutorial, habrás aprendido cómo verificar el uso del disco de archivos y directorios individuales de Hadoop HDFS, lo que te permitirá administrar mejor el almacenamiento de Hadoop y garantizar el rendimiento óptimo de tus aplicaciones de big data.