Cómo garantizar la configuración adecuada del YARN Resource Manager en Hadoop

HadoopHadoopBeginner
Practicar Ahora

💡 Este tutorial está traducido por IA desde la versión en inglés. Para ver la versión original, puedes hacer clic aquí

Introducción

Hadoop es un potente marco de trabajo (framework) de código abierto para el almacenamiento y procesamiento distribuidos de grandes conjuntos de datos. En el corazón de Hadoop se encuentra el componente YARN (Yet Another Resource Negotiator), que es responsable de administrar y asignar recursos en todo el clúster. En este tutorial, exploraremos los pasos para garantizar la configuración adecuada del YARN Resource Manager, un componente crítico en su ecosistema Hadoop.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL hadoop(("Hadoop")) -.-> hadoop/HadoopYARNGroup(["Hadoop YARN"]) hadoop/HadoopYARNGroup -.-> hadoop/yarn_setup("Hadoop YARN Basic Setup") hadoop/HadoopYARNGroup -.-> hadoop/apply_scheduler("Applying Scheduler") hadoop/HadoopYARNGroup -.-> hadoop/yarn_app("Yarn Commands application") hadoop/HadoopYARNGroup -.-> hadoop/yarn_container("Yarn Commands container") hadoop/HadoopYARNGroup -.-> hadoop/yarn_node("Yarn Commands node") hadoop/HadoopYARNGroup -.-> hadoop/resource_manager("Resource Manager") hadoop/HadoopYARNGroup -.-> hadoop/node_manager("Node Manager") subgraph Lab Skills hadoop/yarn_setup -.-> lab-415646{{"Cómo garantizar la configuración adecuada del YARN Resource Manager en Hadoop"}} hadoop/apply_scheduler -.-> lab-415646{{"Cómo garantizar la configuración adecuada del YARN Resource Manager en Hadoop"}} hadoop/yarn_app -.-> lab-415646{{"Cómo garantizar la configuración adecuada del YARN Resource Manager en Hadoop"}} hadoop/yarn_container -.-> lab-415646{{"Cómo garantizar la configuración adecuada del YARN Resource Manager en Hadoop"}} hadoop/yarn_node -.-> lab-415646{{"Cómo garantizar la configuración adecuada del YARN Resource Manager en Hadoop"}} hadoop/resource_manager -.-> lab-415646{{"Cómo garantizar la configuración adecuada del YARN Resource Manager en Hadoop"}} hadoop/node_manager -.-> lab-415646{{"Cómo garantizar la configuración adecuada del YARN Resource Manager en Hadoop"}} end

Introducción al YARN Resource Manager

YARN (Yet Another Resource Negotiator) es el componente de gestión de recursos y programación de trabajos del ecosistema Apache Hadoop. Es responsable de administrar los recursos de cómputo en un clúster de Hadoop y asignarlos a diversas aplicaciones y servicios que se ejecutan en el clúster.

El YARN Resource Manager es el componente central de la arquitectura de YARN, responsable de administrar los recursos del clúster y programar las aplicaciones para que se ejecuten en los recursos disponibles. Es el principal punto de contacto para las aplicaciones cliente que desean ejecutarse en el clúster de Hadoop.

Las principales responsabilidades del YARN Resource Manager incluyen:

Gestión de recursos

  • Monitorear la disponibilidad de recursos (CPU, memoria, almacenamiento, etc.) en el clúster
  • Asignar recursos a las aplicaciones en función de sus requisitos de recursos
  • Hacer cumplir las políticas y cuotas de uso de recursos

Programación de aplicaciones

  • Recibir y poner en cola las solicitudes de aplicaciones de los clientes
  • Programar las aplicaciones para que se ejecuten en los recursos disponibles del clúster
  • Monitorear la ejecución de las aplicaciones en ejecución
  • Manejar los fallos de las aplicaciones y reprogramarlas según sea necesario

Alta disponibilidad

  • Proporcionar un servicio de gestión de recursos de alta disponibilidad y tolerante a fallos
  • Permitir un conmutación automática sin problemas del Resource Manager en caso de fallos

Para garantizar la configuración y el funcionamiento adecuados del YARN Resource Manager, es esencial entender su arquitectura, los parámetros de configuración y las mejores prácticas para la implementación y gestión.

Configuración del YARN Resource Manager

Para configurar el YARN Resource Manager, es necesario modificar los archivos de configuración relevantes en la instalación de Hadoop. El archivo de configuración principal para el YARN Resource Manager es yarn-site.xml.

Parámetros de configuración clave

A continuación, se presentan algunos de los parámetros de configuración más importantes para el YARN Resource Manager:

Parámetro Descripción
yarn.resourcemanager.hostname El nombre de host del YARN Resource Manager
yarn.resourcemanager.address La dirección y el puerto del YARN Resource Manager
yarn.resourcemanager.scheduler.address La dirección y el puerto del YARN Scheduler
yarn.resourcemanager.webapp.address La dirección y el puerto de la interfaz web (web UI) del YARN Resource Manager
yarn.resourcemanager.resource-tracker.address La dirección y el puerto del YARN Resource Tracker
yarn.resourcemanager.admin.address La dirección y el puerto de la interfaz de administración del YARN Resource Manager
yarn.resourcemanager.scheduler.class La clase a utilizar para el YARN Scheduler
yarn.scheduler.maximum-allocation-mb La cantidad máxima de memoria a asignar para cada contenedor
yarn.scheduler.maximum-allocation-vcores El número máximo de núcleos virtuales a asignar para cada contenedor

Ejemplo de configuración

A continuación, se muestra un ejemplo de archivo de configuración yarn-site.xml:

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>resourcemanager.example.com</value>
  </property>
  <property>
    <name>yarn.resourcemanager.address</name>
    <value>resourcemanager.example.com:8032</value>
  </property>
  <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>resourcemanager.example.com:8030</value>
  </property>
  <property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>resourcemanager.example.com:8088</value>
  </property>
  <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>resourcemanager.example.com:8031</value>
  </property>
  <property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>resourcemanager.example.com:8033</value>
  </property>
  <property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>8192</value>
  </property>
  <property>
    <name>yarn.scheduler.maximum-allocation-vcores</name>
    <value>4</value>
  </property>
</configuration>

Recuerde reiniciar el YARN Resource Manager después de realizar cualquier cambio en el archivo de configuración.

Validación de la configuración del YARN Resource Manager

Después de configurar el YARN Resource Manager, es importante validar la configuración para asegurarse de que está funcionando correctamente. A continuación, se presentan algunos pasos que puede seguir para validar la configuración del YARN Resource Manager:

Verificar el estado del YARN Resource Manager

Puede verificar el estado del YARN Resource Manager utilizando el comando yarn rmadmin:

yarn rmadmin -getServiceState

Este comando debe devolver el estado actual del YARN Resource Manager, como ACTIVE o STANDBY (si se está ejecutando en modo de alta disponibilidad).

Verificar la interfaz web (web UI) del YARN Resource Manager

Puede acceder a la interfaz web del YARN Resource Manager navegando a la dirección y el puerto configurados en un navegador web. La interfaz web debe mostrar información sobre el clúster, incluyendo los recursos disponibles, las aplicaciones en ejecución y más.

Enviar una aplicación de prueba

Para verificar que el YARN Resource Manager está funcionando correctamente, puede enviar una aplicación de prueba al clúster. Puede utilizar el comando yarn jar para enviar un trabajo de MapReduce, por ejemplo:

yarn jar /path/to/hadoop-mapreduce-examples.jar wordcount /input/path /output/path

Esto enviará un trabajo de MapReduce WordCount al clúster de YARN, y puede monitorear el progreso y la finalización del trabajo en la interfaz web del YARN Resource Manager.

Verificar los registros (logs) del YARN Resource Manager

También puede verificar los registros del YARN Resource Manager en busca de errores o advertencias que puedan indicar problemas con la configuración. Los registros generalmente se encuentran en el directorio $HADOOP_LOG_DIR.

tail -n 100 $HADOOP_LOG_DIR/yarn-*-resourcemanager-*.log

Siguiendo estos pasos, puede asegurarse de que el YARN Resource Manager esté configurado correctamente y funcione como se espera.

Resumen

Siguiendo los pasos descritos en este tutorial, aprenderá cómo configurar adecuadamente el YARN Resource Manager en su clúster de Hadoop. Esto garantizará una gestión eficiente de los recursos, una mejora en el rendimiento y un entorno de Hadoop estable. Comprender la configuración adecuada del YARN Resource Manager es un aspecto crucial para mantener una infraestructura de Hadoop robusta y escalable.