创建 Hive 表并加载数据
在这一步骤中,你将学习如何创建 Hive 表并将数据从 HDFS 加载到表中。Hive 是一个构建在 Hadoop 之上的强大数据仓库工具,旨在高效地进行数据汇总、查询和分析。
首先,通过运行以下命令启动 Hive CLI:
hive
这将打开 Hive 交互式 shell,你可以在其中执行 Hive 查询和命令。
接下来,我们创建一个名为 celestial_archives
的新 Hive 表来存储数据:
CREATE TABLE celestial_archives (message STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;
以下是该 Hive 查询的作用:
CREATE TABLE celestial_archives
创建一个名为 celestial_archives
的新表。
(message STRING)
定义了一个名为 message
的列,数据类型为 STRING
。
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
指定数据文件中的每一行以制表符 (\t
) 分隔。
STORED AS TEXTFILE
表示表数据将以纯文本文件的形式存储在 HDFS 中。
创建表后,我们使用 LOAD DATA
命令将数据从 HDFS 加载到 Hive 表中:
LOAD DATA INPATH '/home/hadoop/celestial_archives/celestial_data.txt' INTO TABLE celestial_archives;
该命令将 HDFS 中 /home/hadoop/celestial_archives/celestial_data.txt
文件的数据加载到 celestial_archives
Hive 表中。
最后,你可以查询表以验证数据是否正确加载:
SELECT * FROM celestial_archives;
该查询应显示 celestial_archives
表的内容,即 "Hello, Celestial Realm!" 消息。