如何启动和停止 Hadoop YARN 服务

HadoopHadoopBeginner
立即练习

💡 本教程由 AI 辅助翻译自英文原版。如需查看原文,您可以 切换至英文原版

简介

Hadoop YARN(Yet Another Resource Negotiator)是Hadoop生态系统的一个关键组件,负责在Hadoop集群中管理和分配资源。在本教程中,我们将指导你完成启动和停止Hadoop YARN服务的过程,确保你的Hadoop集群平稳运行。


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL hadoop(("Hadoop")) -.-> hadoop/HadoopYARNGroup(["Hadoop YARN"]) hadoop/HadoopYARNGroup -.-> hadoop/yarn_setup("Hadoop YARN Basic Setup") hadoop/HadoopYARNGroup -.-> hadoop/apply_scheduler("Applying Scheduler") hadoop/HadoopYARNGroup -.-> hadoop/yarn_app("Yarn Commands application") hadoop/HadoopYARNGroup -.-> hadoop/yarn_container("Yarn Commands container") hadoop/HadoopYARNGroup -.-> hadoop/yarn_log("Yarn Commands log") hadoop/HadoopYARNGroup -.-> hadoop/yarn_jar("Yarn Commands jar") hadoop/HadoopYARNGroup -.-> hadoop/resource_manager("Resource Manager") hadoop/HadoopYARNGroup -.-> hadoop/node_manager("Node Manager") subgraph Lab Skills hadoop/yarn_setup -.-> lab-417690{{"如何启动和停止 Hadoop YARN 服务"}} hadoop/apply_scheduler -.-> lab-417690{{"如何启动和停止 Hadoop YARN 服务"}} hadoop/yarn_app -.-> lab-417690{{"如何启动和停止 Hadoop YARN 服务"}} hadoop/yarn_container -.-> lab-417690{{"如何启动和停止 Hadoop YARN 服务"}} hadoop/yarn_log -.-> lab-417690{{"如何启动和停止 Hadoop YARN 服务"}} hadoop/yarn_jar -.-> lab-417690{{"如何启动和停止 Hadoop YARN 服务"}} hadoop/resource_manager -.-> lab-417690{{"如何启动和停止 Hadoop YARN 服务"}} hadoop/node_manager -.-> lab-417690{{"如何启动和停止 Hadoop YARN 服务"}} end

Hadoop YARN概述

Hadoop YARN(Yet Another Resource Negotiator)是Apache Hadoop生态系统中的资源管理和作业调度组件。它在Hadoop 2.0中引入,以解决早期MapReduce 1.0(也称为MRv1)框架的局限性。

YARN负责管理Hadoop集群的计算资源(CPU、内存、存储等),并在这些资源上调度用户应用程序的执行。与MapReduce 1.0的整体式设计相比,它提供了更灵活、可扩展的架构。

Hadoop YARN的关键组件

Hadoop YARN的主要组件包括:

  1. 资源管理器(Resource Manager,RM):管理集群资源并调度应用程序的中央机构。
  2. 节点管理器(Node Manager,NM):在集群中的每个节点上运行的代理,负责启动和监控容器,并向资源管理器报告资源使用情况和状态。
  3. 应用程序主节点(Application Master,AM):每个应用程序的框架,负责从资源管理器协商资源,并与节点管理器合作执行和监控应用程序的任务。
  4. 容器(Container):YARN中的基本执行单元,封装了CPU、内存、磁盘和其他资源。
graph TD A[Resource Manager] --> B[Node Manager] A --> C[Application Master] B --> D[Container]

YARN应用程序执行工作流程

运行YARN应用程序的典型工作流程如下:

  1. 客户端向资源管理器提交应用程序。
  2. 资源管理器分配必要的资源并启动应用程序主节点。
  3. 应用程序主节点从资源管理器协商额外的资源,并在节点管理器上的容器中启动应用程序的任务。
  4. 节点管理器监控容器,并将其状态报告回应用程序主节点和资源管理器。
  5. 完成后,应用程序主节点向资源管理器报告应用程序的最终状态。

通过将资源管理和作业调度问题与实际数据处理分离,YARN为在Hadoop集群上运行大规模分布式应用程序提供了更具可扩展性和容错性的架构。

启动Hadoop YARN服务

要启动Hadoop YARN服务,你需要确保Hadoop集群已正确配置且必要的守护进程正在运行。

前提条件

  1. 在你的系统上安装Hadoop。你可以按照LabEx关于如何在Ubuntu 22.04上安装Hadoop的指南进行操作。
  2. 确保Hadoop配置文件(例如core-site.xmlhdfs-site.xmlyarn-site.xml)已正确设置。

启动YARN服务

  1. 如果HDFS服务(NameNode和DataNode)尚未运行,则启动它们:
sudo /usr/local/hadoop/sbin/start-dfs.sh
  1. 启动YARN服务(资源管理器和节点管理器):
sudo /usr/local/hadoop/sbin/start-yarn.sh
  1. 验证YARN服务的状态:
sudo /usr/local/hadoop/bin/yarn node -list

此命令将列出所有活动的节点管理器及其资源使用情况。

  1. 访问YARN Web界面:

    • 资源管理器界面:http://<resource-manager-host>:8088
    • 节点管理器界面:http://<node-manager-host>:8042

这些Web界面提供了YARN集群的可视化概述,包括资源利用率、正在运行的应用程序等。

通过遵循这些步骤,你可以成功启动Hadoop YARN服务,并为在集群上运行分布式应用程序做好准备。

停止Hadoop YARN服务

当你需要关闭Hadoop YARN服务时,可以按照以下步骤优雅地停止YARN组件。

停止YARN服务

  1. 停止YARN节点管理器:
sudo /usr/local/hadoop/sbin/stop-yarn.sh

此命令将停止在集群节点上运行的所有节点管理器守护进程。

  1. 停止YARN资源管理器:
sudo /usr/local/hadoop/bin/yarn rmadmin -shutdownRM

此命令将优雅地关闭资源管理器守护进程。

停止HDFS服务

在停止YARN服务之后,如果需要,你还可以停止HDFS服务(名称节点和数据节点):

sudo /usr/local/hadoop/sbin/stop-dfs.sh

此命令将停止在集群上运行的HDFS守护进程。

验证关闭情况

你可以通过检查进程状态来验证YARN和HDFS服务是否已关闭:

sudo jps

此命令将列出系统上运行的所有Java进程。停止服务后,你不应再看到任何与Hadoop相关的进程。

通过遵循这些步骤,你可以成功停止Hadoop YARN服务,如有必要,还可以停止HDFS服务。当你需要进行维护、升级集群或因任何原因关闭系统时,这会很有用。

总结

本教程提供了一份关于管理Hadoop YARN服务的全面指南,涵盖了有效启动和停止这些服务的步骤。通过了解如何控制Hadoop YARN的生命周期,你可以确保Hadoop集群的最佳性能和可靠性,使其成为满足你数据处理需求的宝贵资源。