Установка Hive
В этом шаге мы установим Apache Hive на нашем кластере Hadoop, что позволит нам обрабатывать и анализировать астрономические данные с использованием запросов, похожих на SQL.
Сначала перейдите в пользователя hadoop
, выполнив следующую команду в терминале:
su - hadoop
Затем загрузите последнюю стабильную версию Apache Hive с официального сайта:
wget https://downloads.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz
Распакуйте загруженный архив:
tar -xzf apache-hive-3.1.3-bin.tar.gz
Далее задайте переменную окружения HIVE_HOME
, добавив следующую строку в файл ~/.bashrc
:
echo 'export HIVE_HOME=/home/hadoop/apache-hive-3.1.3-bin' >> ~/.bashrc
export HIVE_HOME=/home/hadoop/apache-hive-3.1.3-bin
Настройте Hive для работы с кластером Hadoop, создав файл hive-site.xml
в директории $HIVE_HOME/conf
с следующим содержанием:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:derby:;databaseName=/home/hadoop/metastore_db;create=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>org.apache.derby.jdbc.EmbeddedDriver</value>
</property>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
</configuration>
Этот файл конфигурации настраивает metastore Hive, который хранит метаданные для таблиц и разделов Hive.
Наконец, инициализируйте метаданные с помощью следующей команды:
$HIVE_HOME/bin/schematool -dbType derby -initSchema