掌握 Hadoop 的 'having' 子句 | 数据重塑的秘密

介绍

在一个维度界限模糊的领域中，现实的结构出现了一道裂缝，使得一个来自异世界的存在得以穿越。这个被称为“水晶先驱者”的实体，是由纯能量构成的有意识生命体，其形态如同万花筒般变幻闪烁。

水晶先驱者的目标是利用数据的力量重塑存在的本质。为了实现这一目标，它需要掌握 Hadoop 这一强大的大数据处理框架的复杂性。然而，先驱者对 Hadoop 的理解尚不完整，它需要指导来解锁 Hive（Hadoop 的数据仓库组件）中“having”子句的全部潜力。

你的任务，如果你选择接受的话，就是引导水晶先驱者完成一系列步骤，揭示“having”子句的秘密，并使其能够以前所未有的方式驾驭数据的力量。

理解 'having' 子句的用途

在这一步骤中，我们将探讨 Hive 中 "having" 子句的基本作用，以及它与数据过滤和聚合的关系。

Hive 中的 "having" 子句与 "group by" 子句结合使用，用于根据指定条件过滤数据组。它允许你在数据分组和聚合后应用过滤器，从而过滤掉不符合指定条件的整个组。

以下是一个演示 "having" 子句用法的示例：

首先，通过在终端中运行以下命令，确保你以 hadoop 用户身份登录：

su - hadoop

然后，通过执行以下命令启动 Hive shell：

hive

接下来，创建一个示例表：

CREATE TABLE sales (
  product STRING,
  category STRING,
  sales_amount FLOAT
);

插入一些示例数据：

INSERT INTO sales VALUES
  ('Product A', 'Electronics', 1000.0),
  ('Product B', 'Electronics', 2000.0),
  ('Product C', 'Clothing', 500.0),
  ('Product D', 'Clothing', 1500.0),
  ('Product E', 'Electronics', 3000.0);

最后，按类别计算总销售额，并过滤总销售额大于 3000 的类别：

CREATE TABLE result_1
AS
SELECT category, SUM(sales_amount) AS total_sales
FROM sales
GROUP BY category
HAVING SUM(sales_amount) > 3000;

SELECT * FROM result_1;

在这个示例中，我们首先创建了一个名为 sales 的表，包含 product、category 和 sales_amount 列。然后，我们向表中插入了一些示例数据。

接下来，我们使用 "group by" 子句按 category 对数据进行分组，并使用 SUM 函数计算每个类别的总销售额。然后，使用 "having" 子句过滤掉 total_sales 小于或等于 3000 的类别。

此查询的输出将仅包含 "Electronics" 类别，因为其总销售额（2000.0 + 1000.0 + 3000.0 = 6000.0）超过了 3000，而 "Clothing" 类别将被排除，因为其总销售额（500.0 + 1500.0 = 2000.0）不符合 "having" 子句中指定的条件。

基于多个条件过滤数据组

虽然上一步展示了 "having" 子句的基本用法，但 Hive 还允许你使用逻辑运算符（如 AND 和 OR）基于多个条件过滤分组。

以下是一个展示如何在 "having" 子句中使用多个条件的示例：

按产品和类别计算总销售额，并过滤总销售额大于 2000 且属于 'Electronics' 类别的产品：

CREATE TABLE result_2
AS
SELECT product, category, SUM(sales_amount) AS total_sales
FROM sales
GROUP BY product, category
HAVING SUM(sales_amount) > 2000 AND category = 'Electronics';

SELECT * FROM result_2;

在这个示例中，我们按 product 和 category 对数据进行分组，并计算每个 product 和 category 组合的总销售额。然后，使用 "having" 子句过滤掉 total_sales 小于或等于 2000 且 category 不是 "Electronics" 的分组。

此查询的输出将仅包含属于 "Electronics" 类别且总销售额大于 2000 的产品，例如 "Product B" 和 "Product E"。

你也可以使用 OR 运算符在 "having" 子句中组合多个条件：

按产品和类别计算总销售额，并过滤总销售额大于 2000 或属于 'Clothing' 类别的产品：

SELECT product, category, SUM(sales_amount) AS total_sales
FROM sales
GROUP BY product, category
HAVING SUM(sales_amount) > 2000 OR category = 'Clothing';

此查询将包含所有总销售额大于 2000 的产品（无论其类别），以及所有属于 "Clothing" 类别的产品（无论其总销售额）。

在 'having' 子句中使用聚合函数

"having" 子句还可以与聚合函数（如 COUNT、MAX、MIN 和 AVG）结合使用。这使你可以基于涉及这些聚合函数的条件来过滤分组。

以下是一个展示如何在 "having" 子句中使用 COUNT 函数的示例：

计算每个类别中的产品数量，并过滤产品数量大于 2 的类别：

CREATE TABLE result_3
AS
SELECT category, COUNT(product) AS product_count
FROM sales
GROUP BY category
HAVING COUNT(product) > 2;

SELECT * FROM result_3;

在这个示例中，我们使用 COUNT 函数计算每个 category 中的产品数量。然后，使用 "having" 子句过滤掉 product_count 小于或等于 2 的类别。

此查询的输出将仅包含关联产品数量大于 2 的类别。

你还可以在 "having" 子句中结合聚合函数和其他条件：

计算每个类别的最大销售额，并过滤最大销售额大于 2000 且产品数量大于 2 的类别：

SELECT category, MAX(sales_amount) AS max_sales, COUNT(product) AS product_count
FROM sales
GROUP BY category
HAVING MAX(sales_amount) > 2000 AND COUNT(product) > 2;

此查询计算每个类别的最大销售额（max_sales）和产品数量（product_count）。"having" 子句过滤掉 max_sales 小于或等于 2000 或 product_count 小于或等于 2 的类别。

结合 'where' 和 'having' 子句

在 Hive 查询中，"where" 和 "having" 子句有不同的作用。"where" 子句用于在数据分组和聚合之前过滤单行数据，而 "having" 子句用于在数据分组和聚合之后过滤数据组。

在某些情况下，你可能需要在单个查询中结合这两个子句，以实现所需的过滤行为。以下是一个展示如何结合 "where" 和 "having" 子句的示例：

按类别计算总销售额，过滤销售额大于 1000 的产品，并过滤总销售额大于 3000 的类别：

CREATE TABLE result_4
AS
SELECT category, SUM(sales_amount) AS total_sales
FROM sales
WHERE sales_amount > 1000
GROUP BY category
HAVING SUM(sales_amount) > 3000;

SELECT * FROM result_4;

在这个示例中，我们首先使用 "where" 子句过滤掉 sales_amount 小于或等于 1000 的单行数据。这意味着只有销售额大于 1000 的产品才会被用于后续的分组和聚合。

接下来，我们按 category 对过滤后的数据进行分组，并使用 SUM 函数计算每个类别的总销售额。最后，使用 "having" 子句过滤掉 total_sales 小于或等于 3000 的类别。

此查询的输出将仅包含总销售额大于 3000 的类别，这些总销售额是基于销售额大于 1000 的产品计算得出的。

总结

在本实验中，我们踏上了一段旅程，引导 Crystalline Harbinger 掌握 Hive 中 "having" 子句的复杂用法。通过掌握这一强大功能，Harbinger 现在能够以前所未有的精度过滤和分析数据，揭示多元宇宙庞大数据宝库的秘密。

通过一系列步骤，我们探索了 "having" 子句的基本用途，展示了其基于指定条件过滤数据组的能力。随后，我们深入学习了如何使用逻辑运算符应用多个条件，在 "having" 子句中利用聚合函数，以及结合 "where" 和 "having" 子句应对复杂的数据过滤场景。

在整个实验中，Crystalline Harbinger 获得了宝贵的知识和技能，使其能够充分发挥 Hadoop 的潜力，并通过数据分析的力量重塑存在的结构。每一步都解锁了新的可能性，使 Harbinger 能够以前所未有的精度和控制力，在广阔的数据领域中游刃有余。

Hadoop 维度精通指南

介绍

理解 'having' 子句的用途

基于多个条件过滤数据组

在 'having' 子句中使用聚合函数

结合 'where' 和 'having' 子句

总结