简介
本教程将指导你创建一个外部 Hive 表,以访问存储在 Hadoop 分布式文件系统(HDFS)中的数据。你将学习如何设置外部表并查询其中的数据,从而提供一种使用 Hive SQL 接口无缝处理 Hadoop 数据的方法。
Hive 与 HDFS 简介
什么是 Hive?
Hive 是构建在 Hadoop 之上的数据仓库基础架构,它提供了一个类似 SQL 的接口,用于查询和管理存储在 Hadoop 分布式文件系统(HDFS)中的数据。它允许用户使用一种名为 HiveQL 的类 SQL 语言编写查询,然后将这些查询转换为可以在 Hadoop 集群上执行的 MapReduce 作业。
什么是 HDFS?
HDFS(Hadoop 分布式文件系统)是 Hadoop 应用程序使用的主要数据存储系统。它旨在跨 Hadoop 集群中的多台机器可靠且高效地存储大型数据集。HDFS 为应用程序数据提供高吞吐量访问,适用于具有大型数据集的应用程序。
Hive 与 HDFS 的集成
Hive 与 HDFS 紧密集成,允许用户存储和查询存储在 HDFS 中的数据。Hive 使用 HDFS 作为其主要数据存储系统,并提供了一种创建映射到存储在 HDFS 中的数据的表的方法。
graph TD
A[Hive] --> B[HiveQL]
B --> C[MapReduce]
C --> D[HDFS]
Hive 和 HDFS 的用例
Hive 和 HDFS 通常用于以下场景:
- 大数据分析:Hive 和 HDFS 用于存储和分析大型数据集,如网络日志、传感器数据和社交媒体数据。
- 数据仓库:Hive 提供了一个类似 SQL 的接口来查询和管理存储在 HDFS 中的数据,使其成为构建数据仓库的热门选择。
- 批处理:Hive 可用于对存储在 HDFS 中的数据执行批处理,例如生成报告、执行 ETL(提取、转换、加载)操作以及运行机器学习算法。
创建外部 Hive 表
理解外部 Hive 表
在 Hive 中,外部表是指向存储在外部位置(如 HDFS)的数据的表。与将数据存储在 Hive 元存储中的内部表不同,外部表只是提供一种访问存储在其他地方的数据的方式。
创建外部 Hive 表
要创建外部 Hive 表,你可以使用以下 SQL 语句:
CREATE EXTERNAL TABLE IF NOT EXISTS table_name (
col1 data_type,
col2 data_type,
...
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/path/to/hdfs/directory';
让我们来剖析一下这条语句的不同部分:
CREATE EXTERNAL TABLE IF NOT EXISTS table_name:这将创建一个具有指定名称的新外部表,如果该表已存在则跳过创建。(col1 data_type, col2 data_type,...):这定义了表的列及其数据类型。ROW FORMAT DELIMITED:这指定外部位置的数据由特定字符分隔。FIELDS TERMINATED BY ',':这将字段分隔符设置为逗号。STORED AS TEXTFILE:这告诉 Hive 数据以文本文件格式存储。LOCATION '/path/to/hdfs/directory':这指定了数据存储的 HDFS 目录。
示例:创建外部 Hive 表
假设你在 HDFS 路径 /user/hive/data/sales.csv 中有一个 CSV 文件,你可以按如下方式创建外部 Hive 表:
CREATE EXTERNAL TABLE IF NOT EXISTS sales (
product STRING,
quantity INT,
price DOUBLE
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/user/hive/data/sales.csv';
这将创建一个名为 sales 的外部 Hive 表,它有三列:product、quantity 和 price。数据预计为 CSV 格式,字段由逗号分隔。
查询外部表中的数据
访问外部表中的数据
创建外部 Hive 表后,你可以像查询任何其他 Hive 表一样查询存储在相关 HDFS 目录中的数据。当你针对该表执行查询时,数据会自动从 HDFS 加载。
示例查询
假设你已按照上一节中的方式创建了一个名为 sales 的外部 Hive 表。以下是一些你可以运行的示例查询:
-- 从 sales 表中选择所有行
SELECT * FROM sales;
-- 从 sales 表中选择特定列
SELECT product, quantity, price FROM sales;
-- 根据条件过滤数据
SELECT * FROM sales WHERE quantity > 10;
-- 对数据进行聚合操作
SELECT product, SUM(quantity) AS total_quantity, AVG(price) AS avg_price
FROM sales
GROUP BY product;
这些查询将从与 sales 表相关联的 HDFS 目录中获取数据,并将结果返回给用户。
外部表的优势
在 Hive 中使用外部表有几个优势:
- 数据独立性:外部表将数据与 Hive 元存储解耦,允许数据在不影响 Hive 表定义的情况下独立管理和修改。
- 灵活性:外部表可用于访问以各种格式(例如 CSV、Parquet、ORC)存储在不同位置(例如 HDFS、Amazon S3、Google Cloud Storage)的数据。
- 减少存储开销:由于数据不存储在 Hive 元存储中,与内部表相比,外部表所需的存储空间更少。
- 更轻松的数据摄取:外部表使数据摄取到 Hive 生态系统中变得更加容易,因为数据可以直接添加到 HDFS 目录中,而无需创建新的 Hive 表。
通过了解如何创建和查询外部 Hive 表,你可以有效地利用 Hive 和 HDFS 的功能来管理和分析你的大数据。
总结
在本以 Hadoop 为重点的教程中,你已经学会了如何创建一个外部 Hive 表来访问存储在 HDFS 中的数据。通过设置外部表,你现在可以使用熟悉的 Hive SQL 语法来查询和操作数据,而无需直接与底层的 HDFS 文件系统进行交互。这种方法简化了处理 Hadoop 数据的过程,并使你能够利用 Hive 生态系统的强大功能。



