Dominio de los Datos Celestiales

HadoopHadoopBeginner
Practicar Ahora

💡 Este tutorial está traducido por IA desde la versión en inglés. Para ver la versión original, puedes hacer clic aquí

Introducción

Bienvenido al reino del Sobrenatural, donde las fuerzas cósmicas se entrecruzan con la existencia mortal. En este escenario sobrenatural, asumirás el papel de Ezequiel, el líder celestial encargado de proteger el conocimiento etéreo que trasciende el tiempo y el espacio. Tu misión es aprovechar el poder de Hadoop, una robusta plataforma de gestión de datos, para preservar y difundir esta inestimable sabiduría a través de los reinos celestiales.

Como Ezequiel, supervisas los Archivos Celestiales, un vasto repositorio que contiene el conocimiento acumulado de siglos. Sin embargo, la cantidad excesiva de datos se ha vuelto abrumadora, y necesitas un sistema sofisticado para organizar y distribuir esta información de manera eficiente. Entra Hadoop, una herramienta poderosa que te permitirá cargar, procesar y compartir las visiones celestiales con tus compañeros celestiales.

Tu objetivo es dominar el arte de cargar e insertar datos en el sistema de archivos distribuido de Hadoop y en Hive, un sistema de almacén de datos de código abierto construido sobre Hadoop. Al hacerlo, desbloquearás los secretos de los Archivos Celestiales, asegurando que la sabiduría de los siglos permanezca accesible para aquellos que buscan la iluminación.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL hadoop(("Hadoop")) -.-> hadoop/HadoopHDFSGroup(["Hadoop HDFS"]) hadoop(("Hadoop")) -.-> hadoop/HadoopHiveGroup(["Hadoop Hive"]) hadoop/HadoopHDFSGroup -.-> hadoop/fs_ls("FS Shell ls") hadoop/HadoopHDFSGroup -.-> hadoop/fs_mkdir("FS Shell mkdir") hadoop/HadoopHDFSGroup -.-> hadoop/fs_put("FS Shell copyToLocal/put") hadoop/HadoopHiveGroup -.-> hadoop/manage_db("Managing Database") hadoop/HadoopHiveGroup -.-> hadoop/create_tables("Creating Tables") hadoop/HadoopHiveGroup -.-> hadoop/load_insert_data("Loading and Inserting Data") subgraph Lab Skills hadoop/fs_ls -.-> lab-288984{{"Dominio de los Datos Celestiales"}} hadoop/fs_mkdir -.-> lab-288984{{"Dominio de los Datos Celestiales"}} hadoop/fs_put -.-> lab-288984{{"Dominio de los Datos Celestiales"}} hadoop/manage_db -.-> lab-288984{{"Dominio de los Datos Celestiales"}} hadoop/create_tables -.-> lab-288984{{"Dominio de los Datos Celestiales"}} hadoop/load_insert_data -.-> lab-288984{{"Dominio de los Datos Celestiales"}} end

Copiando datos al Sistema de Archivos Distribuido de Hadoop (HDFS)

En este paso, aprenderás a transferir datos de tu sistema de archivos local al Sistema de Archivos Distribuido de Hadoop (HDFS), el pilar del ecosistema Hadoop. HDFS está diseñado para almacenar y gestionar grandes volúmenes de datos en múltiples nodos, lo que garantiza la redundancia de datos y la tolerancia a fallos.

Primero, asegúrate de estar registrado como el usuario hadoop ejecutando el siguiente comando en la terminal:

su - hadoop

Ahora, creemos un archivo de datos de muestra en tu sistema de archivos local:

echo "Hello, Celestial Realm" > /home/hadoop/celestial_data.txt

Este comando crea un archivo de texto llamado celestial_data.txt con el contenido "Hello, Celestial Realm!" en tu directorio /home/hadoop.

A continuación, copiaremos este archivo a HDFS usando el comando hadoop fs:

hadoop fs -mkdir -p /home/hadoop/celestial_archives
hadoop fs -put /home/hadoop/celestial_data.txt /home/hadoop/celestial_archives

Aquí está lo que hace este comando:

  • hadoop fs es una utilidad de línea de comandos para interactuar con HDFS.
  • -mkdir: es un subcomando del comando hadoop fs para crear un directorio.
  • -p: es una opción para crear el directorio padre de forma recursiva. Si el directorio padre no existe en la ruta especificada, se creará junto con él.
  • -put es la operación para copiar un archivo desde el sistema de archivos local a HDFS.
  • /home/hadoop/celestial_data.txt es la ruta del archivo fuente en tu sistema de archivos local.
  • /home/hadoop/celestial_archives es la ruta del directorio destino en HDFS.

Después de ejecutar este comando, deberías ver un mensaje de éxito que confirme que el archivo ha sido copiado a HDFS.

Creando una tabla de Hive y cargando datos

En este paso, aprenderás a crear una tabla de Hive y cargar los datos desde HDFS en la tabla. Hive es una poderosa herramienta de almacén de datos construida sobre Hadoop, diseñada para la resumen, consulta y análisis eficientes de datos.

Primero, iniciemos la interfaz de línea de comandos de Hive ejecutando el siguiente comando:

hive

Esto abrirá el shell interactivo de Hive, donde puedes ejecutar consultas y comandos de Hive.

A continuación, crearemos una nueva tabla de Hive llamada celestial_archives para almacenar nuestros datos:

CREATE TABLE celestial_archives (message STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;

Aquí está lo que hace esta consulta de Hive:

  • CREATE TABLE celestial_archives crea una nueva tabla llamada celestial_archives.
  • (message STRING) define una sola columna llamada message con un tipo de datos STRING.
  • ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' especifica que cada fila en el archivo de datos está delimitada por un carácter tabulación (\t).
  • STORED AS TEXTFILE indica que los datos de la tabla se almacenarán como archivos de texto plano en HDFS.

Después de crear la tabla, cargaremos los datos desde HDFS en la tabla de Hive usando el comando LOAD DATA:

LOAD DATA INPATH '/home/hadoop/celestial_archives/celestial_data.txt' INTO TABLE celestial_archives;

Este comando carga los datos del archivo /home/hadoop/celestial_archives/celestial_data.txt en HDFS en la tabla de Hive celestial_archives.

Finalmente, puedes consultar la tabla para verificar que los datos se cargaron correctamente:

SELECT * FROM celestial_archives;

Esta consulta debería mostrar el contenido de la tabla celestial_archives, que debería ser el mensaje "Hello, Celestial Realm!".

Resumen

En este laboratorio, asumiste el papel de Ezequiel, el líder celestial encargado de proteger el conocimiento etéreo de los Archivos Celestiales. Al dominar el arte de cargar e insertar datos en el Sistema de Archivos Distribuido de Hadoop (HDFS) y en Hive, has dado un paso crucial hacia la preservación y difusión de esta inestimable sabiduría a través de los reinos celestiales.

A través de ejercicios prácticos, aprendiste a copiar datos de tu sistema de archivos local a HDFS, crear tablas de Hive y cargar datos de HDFS en estas tablas. Al cumplir con estas tareas, has desbloqueado los secretos de los Archivos Celestiales, asegurando que el conocimiento de las edades siga siendo accesible para aquellos que buscan la iluminación.

Este laboratorio no solo te ha equipado con habilidades prácticas para trabajar con Hadoop y Hive, sino que también te ha desafió a pensar creativamente y aplicar estas herramientas a un escenario único y sobrenatural. El viaje de preservar el conocimiento celestial acaba de comenzar, y las habilidades que has adquirido serán invaluable a medida que sigues explorando los vastos reinos de la gestión y análisis de datos.