Настройка Hive и исследование данных
В этом шаге мы настроим Hive, мощную систему хранения данных, построенную поверх Hadoop, и исследуем имеющиеся данные в наших архивах.
Во - первых, откроем Hive CLI:
hive
После входа в Hive CLI мы можем создать новую базу данных для хранения архивов нашего города:
CREATE DATABASE city_archives;
Теперь переключимся на новосозданную базу данных:
USE city_archives;
Для исследования имеющихся данных мы создадим новую таблицу и загрузим данные из директории архивов HDFS:
CREATE EXTERNAL TABLE tmp_chronicles (
chapter STRING,
content STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LOCATION '/home/hadoop/archives/chronicles';
Этот код создаст внешнюю таблицу под названием tmp_chronicles
с двумя столбцами: chapter
и content
. Данные таблицы будут загружены из директории /home/hadoop/archives/chronicles
на HDFS, и поля будут разделены табуляцией.
CREATE TABLE chronicles (
chapter STRING,
content STRING
)
STORED AS ORC
TBLPROPERTIES ('transactional'='true');
Этот код создаст таблицу под названием chronicles
с двумя столбцами: chapter
и content
. Предложение STORED AS ORC
задает, что данные будут храниться в формате файлов ORC. Предложение TBLPROPERTIES
задает, что таблица транзакционная, то есть поддерживает ACID - транзакции.
INSERT INTO TABLE chronicles SELECT * FROM tmp_chronicles;
Этот код вставит все данные из временной таблицы tmp_chronicles
в таблицу chronicles
.
Теперь мы можем запросить таблицу chronicles
, чтобы увидеть ее содержимое:
SELECT * FROM chronicles LIMIT 5;
Эта команда покажет первые 5 строк таблицы chronicles
, давая нам представление о данных, с которыми мы будем работать.