设置 Hive 并探索数据
在这一步中,我们将设置 Hive,这是一个基于 Hadoop 构建的强大数据仓库系统,并探索我们档案中的现有数据。
首先,我们打开 Hive CLI:
hive
进入 Hive CLI 后,我们可以创建一个新的数据库来存储我们的城市档案:
CREATE DATABASE city_archives;
现在,切换到新创建的数据库:
USE city_archives;
为了探索现有数据,我们将创建一个新表并从 HDFS 的档案目录加载数据:
CREATE EXTERNAL TABLE tmp_chronicles (
chapter STRING,
content STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LOCATION '/home/hadoop/archives/chronicles';
这段代码将创建一个名为 tmp_chronicles
的外部表,包含两列:chapter
和 content
。表的数据将从 HDFS 上的 /home/hadoop/archives/chronicles
目录加载,字段以制表符分隔。
CREATE TABLE chronicles (
chapter STRING,
content STRING
)
STORED AS ORC
TBLPROPERTIES ('transactional'='true');
这段代码将创建一个名为 chronicles
的表,包含两列:chapter
和 content
。STORED AS ORC
子句指定数据将以 ORC 文件格式存储。TBLPROPERTIES
子句指定该表是事务性的,意味着它支持 ACID 事务。
INSERT INTO TABLE chronicles SELECT * FROM tmp_chronicles;
这段代码将把临时表 tmp_chronicles
中的所有数据插入到 chronicles
表中。
现在,我们可以查询 chronicles
表以查看其内容:
SELECT * FROM chronicles LIMIT 5;
该命令将显示 chronicles
表的前 5 行,让我们初步了解我们将要处理的数据。