Configuración de Hadoop HDFS

HadoopBeginner
Practicar Ahora

Introducción

Imagina un escenario en el que te encuentras en medio de las ruinas del desierto, buscando orientación de una figura mítica conocida como la Oracle del Desastre. La Oracle del Desastre ha previsto un evento cataclísmico que solo se puede evitar configurando correctamente la infraestructura de Hadoop HDFS. Tu objetivo es seguir las instrucciones de la Oracle para garantizar la seguridad del reino de datos.

Inicializando la configuración de HDFS

En este paso, comenzarás configurando Hadoop HDFS para preparar el almacenamiento y el procesamiento de datos.

Abre la terminal y sigue los pasos siguientes para comenzar.

  1. Cambia al usuario de Hadoop para tener los permisos adecuados:

    su - hadoop
  2. Crea un directorio para almacenar los datos de HDFS:

    hdfs dfs -mkdir /home/hadoop/data

Cargando datos a HDFS

A continuación, cargarás datos de muestra al directorio de HDFS configurado.

  1. Crea un archivo local con datos de muestra:

    echo 'Hello, Hadoop World!' > /tmp/sample.txt
  2. Sube el archivo local a HDFS:

    hdfs dfs -put /tmp/sample.txt /home/hadoop/data
  3. Verifica si el archivo existe en HDFS:

    hdfs dfs -ls /home/hadoop/data

Gestión de replicación de datos

En este paso, explorarás cómo HDFS maneja la replicación de datos.

  1. Verifica el estado de replicación del archivo cargado:

    hdfs fsck /home/hadoop/data/sample.txt -files -blocks -locations
  2. Cambia el factor de replicación del archivo a 2:

    hdfs dfs -setrep -R 2 /home/hadoop/data/sample.txt

Resumen

En este laboratorio, diseñamos un escenario inmersivo en el que los participantes interactúan con la Oracle del Desastre en las ruinas del desierto para aprender y practicar la configuración de Hadoop HDFS. Siguiendo los pasos descritos en el laboratorio, los usuarios obtienen experiencia práctica en la configuración de HDFS, la carga de datos y la gestión de la replicación de datos. Este laboratorio tiene como objetivo brindar una introducción integral a la configuración de Hadoop HDFS, asegurando que los usuarios tengan una comprensión práctica de los conceptos y operaciones clave implicados.