Как запускать и останавливать сервисы Hadoop YARN

HadoopHadoopBeginner
Практиковаться сейчас

💡 Этот учебник переведен с английского с помощью ИИ. Чтобы просмотреть оригинал, вы можете перейти на английский оригинал

Введение

Hadoop YARN (Yet Another Resource Negotiator) является важной частью экосистемы Hadoop, ответственной за управление и распределение ресурсов в кластере Hadoop. В этом руководстве мы расскажем вам, как запускать и останавливать сервисы Hadoop YARN, чтобы ваш кластер Hadoop работал без сбоев.

Обзор Hadoop YARN

Hadoop YARN (Yet Another Resource Negotiator) представляет собой компонент управления ресурсами и планирования заданий в экосистеме Apache Hadoop. Он был введен в Hadoop 2.0 для устранения ограничений более ранней платформы MapReduce 1.0 (также известной как MRv1).

YARN отвечает за управление вычислительными ресурсами (процессор, память, хранилище и т. д.) кластера Hadoop и планирование выполнения пользовательских приложений на этих ресурсах. По сравнению с монолитной архитектурой MapReduce 1.0 он обеспечивает более гибкую и масштабируемую архитектуру.

Основные компоненты Hadoop YARN

Основные компоненты Hadoop YARN:

  1. Resource Manager (RM): Центральный орган, который управляет ресурсами кластера и планирует выполнение приложений.
  2. Node Manager (NM): Агент, работающий на каждой ноде кластера, отвечающий за запуск и мониторинг контейнеров, а также за отчет о использовании ресурсов и статусе в Resource Manager.
  3. Application Master (AM): Фреймворк, специфичный для каждого приложения, который отвечает за согласование ресурсов с Resource Manager и взаимодействие с Node Managers для выполнения и мониторинга задач приложения.
  4. Container: Основная единица выполнения в YARN, которая инкапсулирует процессор, память, диск и другие ресурсы.
graph TD A[Resource Manager] --> B[Node Manager] A --> C[Application Master] B --> D[Container]

Рабочий процесс выполнения приложения YARN

Типичный рабочий процесс запуска приложения YARN выглядит следующим образом:

  1. Клиент отправляет приложение в Resource Manager.
  2. Resource Manager выделяет необходимые ресурсы и запускает Application Master.
  3. Application Master согласовывает дополнительные ресурсы с Resource Manager и запускает задачи приложения в контейнерах на Node Managers.
  4. Node Managers отслеживают контейнеры и сообщают их статус обратно в Application Master и Resource Manager.
  5. По завершении Application Master сообщает о конечном статусе приложения в Resource Manager.

Разделяя задачи управления ресурсами и планирования заданий от фактической обработки данных, YARN обеспечивает более масштабируемую и отказоустойчивую архитектуру для запуска крупномасштабных распределенных приложений в кластерах Hadoop.

Запуск сервисов Hadoop YARN

Для запуска сервисов Hadoop YARN необходимо убедиться, что кластер Hadoop правильно настроен и необходимые демоны запущены.

Предварительные требования

  1. Установите Hadoop на своей системе. Вы можете следовать руководству LabEx по Установке Hadoop на Ubuntu 22.04.
  2. Убедитесь, что файлы конфигурации Hadoop (например, core-site.xml, hdfs-site.xml, yarn-site.xml) правильно настроены.

Запуск сервисов YARN

  1. Запустите сервисы HDFS (NameNode и DataNode), если они еще не запущены:
sudo /usr/local/hadoop/sbin/start-dfs.sh
  1. Запустите сервисы YARN (Resource Manager и Node Manager):
sudo /usr/local/hadoop/sbin/start-yarn.sh
  1. Проверьте статус сервисов YARN:
sudo /usr/local/hadoop/bin/yarn node -list

Эта команда выведет список всех активных Node Managers и их использование ресурсов.

  1. Доступ к веб-интерфейсу YARN:
    • Интерфейс Resource Manager: http://<resource-manager-host>:8088
    • Интерфейс Node Manager: http://<node-manager-host>:8042

Эти веб-интерфейсы предоставляют визуальное представление кластера YARN, включая использование ресурсов, запущенные приложения и многое другое.

Следуя этим шагам, вы можете успешно запустить сервисы Hadoop YARN и подготовить свой кластер для запуска распределенных приложений.

Остановка сервисов Hadoop YARN

Когда вам нужно остановить сервисы Hadoop YARN, вы можете следовать этим шагам, чтобы корректно остановить компоненты YARN.

Остановка сервисов YARN

  1. Остановите Node Managers YARN:
sudo /usr/local/hadoop/sbin/stop-yarn.sh

Эта команда остановит все демоны Node Manager, запущенные на узлах кластера.

  1. Остановите Resource Manager YARN:
sudo /usr/local/hadoop/bin/yarn rmadmin -shutdownRM

Эта команда корректно остановит демон Resource Manager.

Остановка сервисов HDFS

После остановки сервисов YARN вы также можете остановить сервисы HDFS (NameNode и DataNode), если это необходимо:

sudo /usr/local/hadoop/sbin/stop-dfs.sh

Эта команда остановит демоны HDFS, запущенные на кластере.

Проверка остановки

Вы можете проверить остановку сервисов YARN и HDFS, проверив статус процессов:

sudo jps

Эта команда выведет список всех запущенных на системе Java - процессов. После остановки сервисов вы не должны видеть никаких процессов, связанных с Hadoop.

Следуя этим шагам, вы можете успешно остановить сервисы Hadoop YARN и, при необходимости, сервисы HDFS. Это может быть полезно, когда вам нужно провести техническое обслуживание, обновить кластер или остановить систему по какой - либо причине.

Резюме

В этом руководстве представлено всестороннее пособие по управлению сервисами Hadoop YARN, в котором описаны шаги по эффективному запуску и остановке этих сервисов. Понимая, как контролировать жизненный цикл Hadoop YARN, вы можете обеспечить оптимальную производительность и надежность своего кластера Hadoop, сделав его ценным ресурсом для своих потребностей в обработке данных.