Cómo iniciar y detener los servicios de Hadoop YARN

Introducción

Hadoop YARN (Yet Another Resource Negotiator) es un componente crucial del ecosistema Hadoop, responsable de administrar y asignar recursos dentro de un clúster Hadoop. En este tutorial, lo guiaremos a través del proceso de inicio y detención de los servicios de Hadoop YARN, asegurando que su clúster Hadoop funcione sin problemas.

Descripción general de Hadoop YARN

Hadoop YARN (Yet Another Resource Negotiator) es el componente de gestión de recursos y programación de trabajos del ecosistema Apache Hadoop. Fue introducido en Hadoop 2.0 para solucionar las limitaciones del framework MapReduce 1.0 (también conocido como MRv1) anterior.

YARN es responsable de administrar los recursos de cómputo (CPU, memoria, almacenamiento, etc.) de un clúster Hadoop y programar la ejecución de aplicaciones de usuario en esos recursos. Proporciona una arquitectura más flexible y escalable en comparación con el diseño monolítico de MapReduce 1.0.

Componentes clave de Hadoop YARN

Los principales componentes de Hadoop YARN son:

Resource Manager (RM): La autoridad central que gestiona los recursos del clúster y programa las aplicaciones.
Node Manager (NM): El agente que se ejecuta en cada nodo del clúster, responsable de lanzar y monitorear los contenedores, así como de informar el uso de recursos y el estado al Resource Manager.
Application Master (AM): Un marco de trabajo por aplicación que es responsable de negociar recursos con el Resource Manager y trabajar con los Node Managers para ejecutar y monitorear las tareas de la aplicación.
Container: La unidad básica de ejecución en YARN, que encapsula CPU, memoria, disco y otros recursos.

graph TD
    A[Resource Manager] --> B[Node Manager]
    A --> C[Application Master]
    B --> D[Container]

Flujo de trabajo de ejecución de aplicaciones YARN

El flujo de trabajo típico para ejecutar una aplicación YARN es el siguiente:

El cliente envía una aplicación al Resource Manager.
El Resource Manager asigna los recursos necesarios y lanza el Application Master.
El Application Master negocia recursos adicionales con el Resource Manager y lanza las tareas de la aplicación en contenedores en los Node Managers.
Los Node Managers monitorean los contenedores e informan su estado al Application Master y al Resource Manager.
Una vez completada, el Application Master informa el estado final de la aplicación al Resource Manager.

Al separar las preocupaciones de gestión de recursos y programación de trabajos del procesamiento real de datos, YARN proporciona una arquitectura más escalable y tolerante a fallos para ejecutar aplicaciones distribuidas a gran escala en clústeres Hadoop.

Iniciar los servicios de Hadoop YARN

Para iniciar los servicios de Hadoop YARN, debe asegurarse de que el clúster Hadoop esté configurado correctamente y de que los demonios necesarios estén en ejecución.

Requisitos previos

Instale Hadoop en su sistema. Puede seguir la guía de LabEx sobre Cómo instalar Hadoop en Ubuntu 22.04.
Asegúrese de que los archivos de configuración de Hadoop (por ejemplo, core-site.xml, hdfs-site.xml, yarn-site.xml) estén configurados correctamente.

Iniciar los servicios de YARN

Inicie los servicios de HDFS (NameNode y DataNode) si no están ya en ejecución:

sudo /usr/local/hadoop/sbin/start-dfs.sh

Inicie los servicios de YARN (Resource Manager y Node Manager):

sudo /usr/local/hadoop/sbin/start-yarn.sh

Verifique el estado de los servicios de YARN:

sudo /usr/local/hadoop/bin/yarn node -list

Este comando mostrará todos los Node Managers activos y su uso de recursos.

Acceda a la interfaz web de YARN:
- Interfaz web del Resource Manager: http://<resource-manager-host>:8088
- Interfaz web del Node Manager: http://<node-manager-host>:8042

Estas interfaces web proporcionan una vista general visual del clúster YARN, incluyendo la utilización de recursos, las aplicaciones en ejecución y más.

Si sigue estos pasos, podrá iniciar con éxito los servicios de Hadoop YARN y preparar su clúster para ejecutar aplicaciones distribuidas.

Detener los servicios de Hadoop YARN

Cuando necesite apagar los servicios de Hadoop YARN, puede seguir estos pasos para detener los componentes de YARN de manera adecuada.

Detener los servicios de YARN

Detenga los Node Managers de YARN:

sudo /usr/local/hadoop/sbin/stop-yarn.sh

Este comando detendrá todos los demonios Node Manager que se estén ejecutando en los nodos del clúster.

Detenga el Resource Manager de YARN:

sudo /usr/local/hadoop/bin/yarn rmadmin -shutdownRM

Este comando apagará adecuadamente el demonio del Resource Manager.

Detener los servicios de HDFS

Después de detener los servicios de YARN, también puede detener los servicios de HDFS (NameNode y DataNode) si es necesario:

sudo /usr/local/hadoop/sbin/stop-dfs.sh

Este comando detendrá los demonios de HDFS que se estén ejecutando en el clúster.

Verificar el apagado

Puede verificar el apagado de los servicios de YARN y HDFS comprobando el estado de los procesos:

sudo jps

Este comando mostrará todos los procesos Java que se estén ejecutando en el sistema. No debería ver ningún proceso relacionado con Hadoop después de detener los servicios.

Si sigue estos pasos, podrá detener con éxito los servicios de Hadoop YARN y, si es necesario, también los servicios de HDFS. Esto puede ser útil cuando necesite realizar mantenimiento, actualizar el clúster o apagar el sistema por cualquier motivo.

Resumen

Este tutorial ofrece una guía integral sobre la gestión de los servicios de Hadoop YARN, cubriendo los pasos para iniciar y detener estos servicios de manera efectiva. Al entender cómo controlar el ciclo de vida de Hadoop YARN, puede garantizar el rendimiento óptimo y la confiabilidad de su clúster Hadoop, convirtiéndolo en un recurso valioso para sus necesidades de procesamiento de datos.