Aprovechar el poder de Hadoop Hive | Archivos de la ciudad medieval

Introducción

En una ciudad medieval, conocida por su vibrante cultura y rica historia, un minstrel ambulante llamado Alaric se encontró cautivado por las historias y canciones de la tierra. Mientras vagaba por las calles, tocando su lúto, se dio cuenta de que los archivos de la ciudad necesitaban desesperadamente ser organizados. Innumerables pergaminos y rollos estaban dispersos, llenos de historias y registros del pasado, pero la tarea de clasificar y manejarlos parecía intimidante.

El objetivo de Alaric era crear un sistema armónico, donde los registros históricos de la ciudad pudieran ser preservados y accedidos con facilidad. Con su amor por contar historias y su agudo ojo para la organización, se lanzó a una búsqueda para aprovechar el poder de Hadoop Hive, una herramienta que le permitiría manejar y manipular eficientemente las vastas cantidades de datos.

Explorando los archivos de la ciudad

En este paso, profundizaremos en los archivos de la ciudad, donde innumerables pergaminos y rollos están dispersos, esperando ser organizados. Nuestro objetivo es familiarizarnos con los datos existentes y entender los desafíos que se presentan al manejar una colección tan vasta.

Primero, asegúrese de estar registrado como el usuario hadoop ejecutando el siguiente comando en la terminal:

su - hadoop

Aquí, encontrará una colección de archivos que contienen varios registros y relatos del pasado de la ciudad. Para obtener una panorámica de los datos disponibles, ejecute el siguiente comando:

hdfs dfs -ls /home/hadoop/archives

Este comando listará los archivos y directorios dentro del directorio /home/hadoop/archives en el Hadoop Distributed File System (HDFS).

A continuación, exploremos el contenido de uno de los archivos. Usaremos el comando hdfs dfs -cat para ver el contenido del archivo:

hdfs dfs -cat /home/hadoop/archives/chronicles/chapter_1.txt

Este comando mostrará el contenido del archivo chapter_1.txt ubicado en el subdirectorio chronicles.

A medida que navegue por los archivos, notará que algunos contienen información irrelevante o desactualizada que necesita ser eliminada o truncada. Aquí es donde entra en juego el poder de Hadoop Hive, que nos permite manejar y manipular eficientemente los datos.

Configurando Hive y Explorando Datos

En este paso, configuraremos Hive, un poderoso sistema de almacén de datos construido sobre Hadoop, y exploraremos los datos existentes en nuestros archivos.

Primero, abriremos la interfaz de línea de comandos de Hive:

hive

Una vez dentro de la interfaz de línea de comandos de Hive, podemos crear una nueva base de datos para almacenar nuestros archivos de la ciudad:

CREATE DATABASE city_archives;

Ahora, cambiemos a la base de datos recién creada:

USE city_archives;

Para explorar los datos existentes, crearemos una nueva tabla y cargaremos los datos desde el directorio de archivos de HDFS:

CREATE EXTERNAL TABLE tmp_chronicles (
  chapter STRING,
  content STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LOCATION '/home/hadoop/archives/chronicles';

Este código creará una tabla externa llamada tmp_chronicles con dos columnas: chapter y content. Los datos de la tabla se cargarán desde el directorio /home/hadoop/archives/chronicles en HDFS, y los campos estarán delimitados por caracteres tabuladores.

CREATE TABLE chronicles (
  chapter STRING,
  content STRING
)
STORED AS ORC
TBLPROPERTIES ('transactional'='true');

Este código creará una tabla llamada chronicles con dos columnas: chapter y content. La cláusula STORED AS ORC especifica que los datos se almacenarán en el formato de archivo ORC. La cláusula TBLPROPERTIES especifica que la tabla es transaccional, lo que significa que admite transacciones ACID.

INSERT INTO TABLE chronicles SELECT * FROM tmp_chronicles;

Este código insertará todos los datos de la tabla temporal tmp_chronicles en la tabla chronicles.

Ahora, podemos consultar la tabla chronicles para ver su contenido:

SELECT * FROM chronicles LIMIT 5;

Este comando mostrará las primeras 5 filas de la tabla chronicles, brindándonos una idea de los datos con los que trabajaremos.

Eliminando y Redondeando Datos

En este paso, aprenderemos cómo eliminar y redondear datos de nuestras tablas de Hive, lo que nos permitirá administrar y mantener eficientemente los archivos de la ciudad.

A veces, es posible que necesitemos eliminar datos desactualizados o irrelevantes de nuestras tablas. En Hive, podemos usar la instrucción DELETE para eliminar filas específicas que coincidan con una condición dada.

Por ejemplo, digamos que queremos eliminar todos los capítulos que contengan la palabra "desactualizado" de la tabla chronicles:

DELETE FROM chronicles WHERE content LIKE '%outdated%';

Este comando eliminará todas las filas de la tabla chronicles donde la columna content contenga la palabra "desactualizado".

Sin embargo, si queremos eliminar todos los datos de una tabla, podemos usar la instrucción TRUNCATE en lugar de eliminar filas individualmente. Esta operación es más eficiente y más rápida que eliminar filas una por una.

TRUNCATE TABLE chronicles;

Este comando eliminará todos los datos de la tabla chronicles, dejándola vacía.

Al dominar estas técnicas de eliminación y redondeo, podemos mantener la integridad y relevancia de nuestros archivos de la ciudad, asegurando que solo la información más valiosa y actualizada se conserve.

Resumen

En este laboratorio, emprendimos un viaje para organizar y mantener los archivos de la ciudad utilizando Hadoop Hive. A través de los ojos de Alaric, el minstrel ambulante, exploramos los desafíos de administrar vastas colecciones de registros históricos y aprendimos cómo aprovechar el poder de Hive para eliminar y redondear eficientemente los datos.

Al profundizar en el directorio de archivos y configurar Hive, adquirimos experiencia práctica en la creación de bases de datos, tablas y la carga de datos en Hive. Luego, dominamos el arte de eliminar filas específicas y redondear tablas completas, lo que nos permitió eliminar información desactualizada o irrelevante de los archivos de la ciudad.

A lo largo de este laboratorio, no solo adquirimos habilidades prácticas en la gestión de datos, sino que también descubrimos la belleza de combinar la narración de historias con la tecnología. La búsqueda de Alaric para preservar el rico patrimonio cultural de la ciudad es un recordatorio de que los datos son más que solo números y cifras; es un tapiz de historias esperando ser tejiendas y compartidas.

Búsqueda de la armonía en los datos históricos

Introducción

Explorando los archivos de la ciudad

Configurando Hive y Explorando Datos

Eliminando y Redondeando Datos

Resumen