如何为 HDFS 数据创建外部 Hive 表

HadoopHadoopBeginner
立即练习

💡 本教程由 AI 辅助翻译自英文原版。如需查看原文,您可以 切换至英文原版

简介

本教程将指导你创建一个外部 Hive 表,以访问存储在 Hadoop 分布式文件系统(HDFS)中的数据。你将学习如何设置外部表并查询其中的数据,从而提供一种使用 Hive SQL 接口无缝处理 Hadoop 数据的方法。


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL hadoop(("Hadoop")) -.-> hadoop/HadoopHDFSGroup(["Hadoop HDFS"]) hadoop(("Hadoop")) -.-> hadoop/HadoopHiveGroup(["Hadoop Hive"]) hadoop/HadoopHDFSGroup -.-> hadoop/hdfs_setup("HDFS Setup") hadoop/HadoopHiveGroup -.-> hadoop/hive_setup("Hive Setup") hadoop/HadoopHiveGroup -.-> hadoop/hive_shell("Hive Shell") hadoop/HadoopHiveGroup -.-> hadoop/manage_db("Managing Database") hadoop/HadoopHiveGroup -.-> hadoop/create_tables("Creating Tables") hadoop/HadoopHiveGroup -.-> hadoop/describe_tables("Describing Tables") subgraph Lab Skills hadoop/hdfs_setup -.-> lab-414827{{"如何为 HDFS 数据创建外部 Hive 表"}} hadoop/hive_setup -.-> lab-414827{{"如何为 HDFS 数据创建外部 Hive 表"}} hadoop/hive_shell -.-> lab-414827{{"如何为 HDFS 数据创建外部 Hive 表"}} hadoop/manage_db -.-> lab-414827{{"如何为 HDFS 数据创建外部 Hive 表"}} hadoop/create_tables -.-> lab-414827{{"如何为 HDFS 数据创建外部 Hive 表"}} hadoop/describe_tables -.-> lab-414827{{"如何为 HDFS 数据创建外部 Hive 表"}} end

Hive 与 HDFS 简介

什么是 Hive?

Hive 是构建在 Hadoop 之上的数据仓库基础架构,它提供了一个类似 SQL 的接口,用于查询和管理存储在 Hadoop 分布式文件系统(HDFS)中的数据。它允许用户使用一种名为 HiveQL 的类 SQL 语言编写查询,然后将这些查询转换为可以在 Hadoop 集群上执行的 MapReduce 作业。

什么是 HDFS?

HDFS(Hadoop 分布式文件系统)是 Hadoop 应用程序使用的主要数据存储系统。它旨在跨 Hadoop 集群中的多台机器可靠且高效地存储大型数据集。HDFS 为应用程序数据提供高吞吐量访问,适用于具有大型数据集的应用程序。

Hive 与 HDFS 的集成

Hive 与 HDFS 紧密集成,允许用户存储和查询存储在 HDFS 中的数据。Hive 使用 HDFS 作为其主要数据存储系统,并提供了一种创建映射到存储在 HDFS 中的数据的表的方法。

graph TD A[Hive] --> B[HiveQL] B --> C[MapReduce] C --> D[HDFS]

Hive 和 HDFS 的用例

Hive 和 HDFS 通常用于以下场景:

  • 大数据分析:Hive 和 HDFS 用于存储和分析大型数据集,如网络日志、传感器数据和社交媒体数据。
  • 数据仓库:Hive 提供了一个类似 SQL 的接口来查询和管理存储在 HDFS 中的数据,使其成为构建数据仓库的热门选择。
  • 批处理:Hive 可用于对存储在 HDFS 中的数据执行批处理,例如生成报告、执行 ETL(提取、转换、加载)操作以及运行机器学习算法。

创建外部 Hive 表

理解外部 Hive 表

在 Hive 中,外部表是指向存储在外部位置(如 HDFS)的数据的表。与将数据存储在 Hive 元存储中的内部表不同,外部表只是提供一种访问存储在其他地方的数据的方式。

创建外部 Hive 表

要创建外部 Hive 表,你可以使用以下 SQL 语句:

CREATE EXTERNAL TABLE IF NOT EXISTS table_name (
  col1 data_type,
  col2 data_type,
...
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/path/to/hdfs/directory';

让我们来剖析一下这条语句的不同部分:

  • CREATE EXTERNAL TABLE IF NOT EXISTS table_name:这将创建一个具有指定名称的新外部表,如果该表已存在则跳过创建。
  • (col1 data_type, col2 data_type,...):这定义了表的列及其数据类型。
  • ROW FORMAT DELIMITED:这指定外部位置的数据由特定字符分隔。
  • FIELDS TERMINATED BY ',':这将字段分隔符设置为逗号。
  • STORED AS TEXTFILE:这告诉 Hive 数据以文本文件格式存储。
  • LOCATION '/path/to/hdfs/directory':这指定了数据存储的 HDFS 目录。

示例:创建外部 Hive 表

假设你在 HDFS 路径 /user/hive/data/sales.csv 中有一个 CSV 文件,你可以按如下方式创建外部 Hive 表:

CREATE EXTERNAL TABLE IF NOT EXISTS sales (
  product STRING,
  quantity INT,
  price DOUBLE
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/user/hive/data/sales.csv';

这将创建一个名为 sales 的外部 Hive 表,它有三列:productquantityprice。数据预计为 CSV 格式,字段由逗号分隔。

查询外部表中的数据

访问外部表中的数据

创建外部 Hive 表后,你可以像查询任何其他 Hive 表一样查询存储在相关 HDFS 目录中的数据。当你针对该表执行查询时,数据会自动从 HDFS 加载。

示例查询

假设你已按照上一节中的方式创建了一个名为 sales 的外部 Hive 表。以下是一些你可以运行的示例查询:

-- 从 sales 表中选择所有行
SELECT * FROM sales;

-- 从 sales 表中选择特定列
SELECT product, quantity, price FROM sales;

-- 根据条件过滤数据
SELECT * FROM sales WHERE quantity > 10;

-- 对数据进行聚合操作
SELECT product, SUM(quantity) AS total_quantity, AVG(price) AS avg_price
FROM sales
GROUP BY product;

这些查询将从与 sales 表相关联的 HDFS 目录中获取数据,并将结果返回给用户。

外部表的优势

在 Hive 中使用外部表有几个优势:

  1. 数据独立性:外部表将数据与 Hive 元存储解耦,允许数据在不影响 Hive 表定义的情况下独立管理和修改。
  2. 灵活性:外部表可用于访问以各种格式(例如 CSV、Parquet、ORC)存储在不同位置(例如 HDFS、Amazon S3、Google Cloud Storage)的数据。
  3. 减少存储开销:由于数据不存储在 Hive 元存储中,与内部表相比,外部表所需的存储空间更少。
  4. 更轻松的数据摄取:外部表使数据摄取到 Hive 生态系统中变得更加容易,因为数据可以直接添加到 HDFS 目录中,而无需创建新的 Hive 表。

通过了解如何创建和查询外部 Hive 表,你可以有效地利用 Hive 和 HDFS 的功能来管理和分析你的大数据。

总结

在本以 Hadoop 为重点的教程中,你已经学会了如何创建一个外部 Hive 表来访问存储在 HDFS 中的数据。通过设置外部表,你现在可以使用熟悉的 Hive SQL 语法来查询和操作数据,而无需直接与底层的 HDFS 文件系统进行交互。这种方法简化了处理 Hadoop 数据的过程,并使你能够利用 Hive 生态系统的强大功能。