如何为 HDFS 数据创建外部 Hive 表

简介

本教程将指导你创建一个外部 Hive 表，以访问存储在 Hadoop 分布式文件系统（HDFS）中的数据。你将学习如何设置外部表并查询其中的数据，从而提供一种使用 Hive SQL 接口无缝处理 Hadoop 数据的方法。

Hive 与 HDFS 简介

什么是 Hive？

Hive 是构建在 Hadoop 之上的数据仓库基础架构，它提供了一个类似 SQL 的接口，用于查询和管理存储在 Hadoop 分布式文件系统（HDFS）中的数据。它允许用户使用一种名为 HiveQL 的类 SQL 语言编写查询，然后将这些查询转换为可以在 Hadoop 集群上执行的 MapReduce 作业。

什么是 HDFS？

HDFS（Hadoop 分布式文件系统）是 Hadoop 应用程序使用的主要数据存储系统。它旨在跨 Hadoop 集群中的多台机器可靠且高效地存储大型数据集。HDFS 为应用程序数据提供高吞吐量访问，适用于具有大型数据集的应用程序。

Hive 与 HDFS 的集成

Hive 与 HDFS 紧密集成，允许用户存储和查询存储在 HDFS 中的数据。Hive 使用 HDFS 作为其主要数据存储系统，并提供了一种创建映射到存储在 HDFS 中的数据的表的方法。

graph TD
    A[Hive] --> B[HiveQL]
    B --> C[MapReduce]
    C --> D[HDFS]

Hive 和 HDFS 的用例

Hive 和 HDFS 通常用于以下场景：

大数据分析：Hive 和 HDFS 用于存储和分析大型数据集，如网络日志、传感器数据和社交媒体数据。
数据仓库：Hive 提供了一个类似 SQL 的接口来查询和管理存储在 HDFS 中的数据，使其成为构建数据仓库的热门选择。
批处理：Hive 可用于对存储在 HDFS 中的数据执行批处理，例如生成报告、执行 ETL（提取、转换、加载）操作以及运行机器学习算法。

创建外部 Hive 表

理解外部 Hive 表

在 Hive 中，外部表是指向存储在外部位置（如 HDFS）的数据的表。与将数据存储在 Hive 元存储中的内部表不同，外部表只是提供一种访问存储在其他地方的数据的方式。

创建外部 Hive 表

要创建外部 Hive 表，你可以使用以下 SQL 语句：

CREATE EXTERNAL TABLE IF NOT EXISTS table_name (
  col1 data_type,
  col2 data_type,
...
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/path/to/hdfs/directory';

让我们来剖析一下这条语句的不同部分：

CREATE EXTERNAL TABLE IF NOT EXISTS table_name：这将创建一个具有指定名称的新外部表，如果该表已存在则跳过创建。
(col1 data_type, col2 data_type,...)：这定义了表的列及其数据类型。
ROW FORMAT DELIMITED：这指定外部位置的数据由特定字符分隔。
FIELDS TERMINATED BY ','：这将字段分隔符设置为逗号。
STORED AS TEXTFILE：这告诉 Hive 数据以文本文件格式存储。
LOCATION '/path/to/hdfs/directory'：这指定了数据存储的 HDFS 目录。

示例：创建外部 Hive 表

假设你在 HDFS 路径 /user/hive/data/sales.csv 中有一个 CSV 文件，你可以按如下方式创建外部 Hive 表：

CREATE EXTERNAL TABLE IF NOT EXISTS sales (
  product STRING,
  quantity INT,
  price DOUBLE
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/user/hive/data/sales.csv';

这将创建一个名为 sales 的外部 Hive 表，它有三列：product、quantity 和 price。数据预计为 CSV 格式，字段由逗号分隔。

查询外部表中的数据

访问外部表中的数据

创建外部 Hive 表后，你可以像查询任何其他 Hive 表一样查询存储在相关 HDFS 目录中的数据。当你针对该表执行查询时，数据会自动从 HDFS 加载。

示例查询

假设你已按照上一节中的方式创建了一个名为 sales 的外部 Hive 表。以下是一些你可以运行的示例查询：

-- 从 sales 表中选择所有行
SELECT * FROM sales;

-- 从 sales 表中选择特定列
SELECT product, quantity, price FROM sales;

-- 根据条件过滤数据
SELECT * FROM sales WHERE quantity > 10;

-- 对数据进行聚合操作
SELECT product, SUM(quantity) AS total_quantity, AVG(price) AS avg_price
FROM sales
GROUP BY product;

这些查询将从与 sales 表相关联的 HDFS 目录中获取数据，并将结果返回给用户。

外部表的优势

在 Hive 中使用外部表有几个优势：

数据独立性：外部表将数据与 Hive 元存储解耦，允许数据在不影响 Hive 表定义的情况下独立管理和修改。
灵活性：外部表可用于访问以各种格式（例如 CSV、Parquet、ORC）存储在不同位置（例如 HDFS、Amazon S3、Google Cloud Storage）的数据。
减少存储开销：由于数据不存储在 Hive 元存储中，与内部表相比，外部表所需的存储空间更少。
更轻松的数据摄取：外部表使数据摄取到 Hive 生态系统中变得更加容易，因为数据可以直接添加到 HDFS 目录中，而无需创建新的 Hive 表。

通过了解如何创建和查询外部 Hive 表，你可以有效地利用 Hive 和 HDFS 的功能来管理和分析你的大数据。

总结

在本以 Hadoop 为重点的教程中，你已经学会了如何创建一个外部 Hive 表来访问存储在 HDFS 中的数据。通过设置外部表，你现在可以使用熟悉的 Hive SQL 语法来查询和操作数据，而无需直接与底层的 HDFS 文件系统进行交互。这种方法简化了处理 Hadoop 数据的过程，并使你能够利用 Hive 生态系统的强大功能。