Configurando Hive y Explorando Datos
En este paso, configuraremos Hive, un poderoso sistema de almacén de datos construido sobre Hadoop, y exploraremos los datos existentes en nuestros archivos.
Primero, abriremos la interfaz de línea de comandos de Hive:
hive
Una vez dentro de la interfaz de línea de comandos de Hive, podemos crear una nueva base de datos para almacenar nuestros archivos de la ciudad:
CREATE DATABASE city_archives;
Ahora, cambiemos a la base de datos recién creada:
USE city_archives;
Para explorar los datos existentes, crearemos una nueva tabla y cargaremos los datos desde el directorio de archivos de HDFS:
CREATE EXTERNAL TABLE tmp_chronicles (
chapter STRING,
content STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LOCATION '/home/hadoop/archives/chronicles';
Este código creará una tabla externa llamada tmp_chronicles
con dos columnas: chapter
y content
. Los datos de la tabla se cargarán desde el directorio /home/hadoop/archives/chronicles
en HDFS, y los campos estarán delimitados por caracteres tabuladores.
CREATE TABLE chronicles (
chapter STRING,
content STRING
)
STORED AS ORC
TBLPROPERTIES ('transactional'='true');
Este código creará una tabla llamada chronicles
con dos columnas: chapter
y content
. La cláusula STORED AS ORC
especifica que los datos se almacenarán en el formato de archivo ORC. La cláusula TBLPROPERTIES
especifica que la tabla es transaccional, lo que significa que admite transacciones ACID.
INSERT INTO TABLE chronicles SELECT * FROM tmp_chronicles;
Este código insertará todos los datos de la tabla temporal tmp_chronicles
en la tabla chronicles
.
Ahora, podemos consultar la tabla chronicles
para ver su contenido:
SELECT * FROM chronicles LIMIT 5;
Este comando mostrará las primeras 5 filas de la tabla chronicles
, brindándonos una idea de los datos con los que trabajaremos.