Wie man die richtige Konfiguration des YARN Resource Managers in Hadoop sicherstellt

HadoopHadoopBeginner
Jetzt üben

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

Hadoop ist ein leistungsstarkes Open-Source-Framework für die verteilte Speicherung und Verarbeitung großer Datensätze. Kernstück von Hadoop ist die YARN (Yet Another Resource Negotiator)-Komponente, die für die Verwaltung und Zuweisung von Ressourcen im Cluster verantwortlich ist. In diesem Tutorial werden wir die Schritte zur Sicherstellung der richtigen Konfiguration des YARN Resource Managers untersuchen, einer kritischen Komponente in Ihrem Hadoop-Ökosystem.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL hadoop(("Hadoop")) -.-> hadoop/HadoopYARNGroup(["Hadoop YARN"]) hadoop/HadoopYARNGroup -.-> hadoop/yarn_setup("Hadoop YARN Basic Setup") hadoop/HadoopYARNGroup -.-> hadoop/apply_scheduler("Applying Scheduler") hadoop/HadoopYARNGroup -.-> hadoop/yarn_app("Yarn Commands application") hadoop/HadoopYARNGroup -.-> hadoop/yarn_container("Yarn Commands container") hadoop/HadoopYARNGroup -.-> hadoop/yarn_node("Yarn Commands node") hadoop/HadoopYARNGroup -.-> hadoop/resource_manager("Resource Manager") hadoop/HadoopYARNGroup -.-> hadoop/node_manager("Node Manager") subgraph Lab Skills hadoop/yarn_setup -.-> lab-415646{{"Wie man die richtige Konfiguration des YARN Resource Managers in Hadoop sicherstellt"}} hadoop/apply_scheduler -.-> lab-415646{{"Wie man die richtige Konfiguration des YARN Resource Managers in Hadoop sicherstellt"}} hadoop/yarn_app -.-> lab-415646{{"Wie man die richtige Konfiguration des YARN Resource Managers in Hadoop sicherstellt"}} hadoop/yarn_container -.-> lab-415646{{"Wie man die richtige Konfiguration des YARN Resource Managers in Hadoop sicherstellt"}} hadoop/yarn_node -.-> lab-415646{{"Wie man die richtige Konfiguration des YARN Resource Managers in Hadoop sicherstellt"}} hadoop/resource_manager -.-> lab-415646{{"Wie man die richtige Konfiguration des YARN Resource Managers in Hadoop sicherstellt"}} hadoop/node_manager -.-> lab-415646{{"Wie man die richtige Konfiguration des YARN Resource Managers in Hadoop sicherstellt"}} end

Einführung in den YARN Resource Manager

YARN (Yet Another Resource Negotiator) ist die Ressourcenverwaltung und Auftragsplanungskomponente des Apache Hadoop-Ökosystems. Es ist für die Verwaltung der Rechenressourcen in einem Hadoop-Cluster und die Zuweisung dieser Ressourcen an verschiedene Anwendungen und Dienste, die im Cluster laufen, verantwortlich.

Der YARN Resource Manager ist die zentrale Komponente der YARN-Architektur und verantwortlich für die Verwaltung der Clusterressourcen und die Planung von Anwendungen, die auf den verfügbaren Ressourcen ausgeführt werden sollen. Er ist der Haupteinsprungspunkt für Clientanwendungen, die auf dem Hadoop-Cluster laufen möchten.

Die Hauptverantwortlichkeiten des YARN Resource Managers umfassen:

Ressourcenverwaltung

  • Überwachung der Verfügbarkeit von Ressourcen (CPU, Arbeitsspeicher, Speicherplatz usw.) im Cluster
  • Zuweisung von Ressourcen an Anwendungen basierend auf ihren Ressourcenanforderungen
  • Durchsetzung von Ressourcennutzungspolitiken und Kontingenten

Anwendungsplanung

  • Empfang und Warteschaltung von Anwendungsanfragen von Clients
  • Planung von Anwendungen zur Ausführung auf verfügbaren Clusterressourcen
  • Überwachung der Ausführung laufender Anwendungen
  • Behandlung von Anwendungsfehlern und Neupriorisierung bei Bedarf

Hochverfügbarkeit

  • Bereitstellung eines hochverfügbaren und fehlertoleranten Ressourcenverwaltungsdienstes
  • Ermöglichung eines nahtlosen Failovers des Resource Managers im Falle von Ausfällen

Um die richtige Konfiguration und den ordnungsgemäßen Betrieb des YARN Resource Managers sicherzustellen, ist es wichtig, seine Architektur, Konfigurationsparameter und bewährte Verfahren für die Bereitstellung und Verwaltung zu verstehen.

Konfiguration des YARN Resource Managers

Um den YARN Resource Manager zu konfigurieren, müssen Sie die relevanten Konfigurationsdateien in Ihrer Hadoop-Installation ändern. Die Hauptkonfigurationsdatei für den YARN Resource Manager ist yarn-site.xml.

Wichtige Konfigurationsparameter

Hier sind einige der wichtigsten Konfigurationsparameter für den YARN Resource Manager:

Parameter Beschreibung
yarn.resourcemanager.hostname Der Hostname des YARN Resource Managers
yarn.resourcemanager.address Die Adresse und der Port des YARN Resource Managers
yarn.resourcemanager.scheduler.address Die Adresse und der Port des YARN Schedulers
yarn.resourcemanager.webapp.address Die Adresse und der Port der YARN Resource Manager-Weboberfläche
yarn.resourcemanager.resource-tracker.address Die Adresse und der Port des YARN Resource Trackers
yarn.resourcemanager.admin.address Die Adresse und der Port der YARN Resource Manager-Administrationsschnittstelle
yarn.resourcemanager.scheduler.class Die Klasse, die für den YARN Scheduler verwendet werden soll
yarn.scheduler.maximum-allocation-mb Die maximale Menge an Arbeitsspeicher, die für jeden Container zugewiesen werden kann
yarn.scheduler.maximum-allocation-vcores Die maximale Anzahl von virtuellen Kernen, die für jeden Container zugewiesen werden kann

Beispielkonfiguration

Hier ist eine Beispiel-Konfigurationsdatei yarn-site.xml:

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>resourcemanager.example.com</value>
  </property>
  <property>
    <name>yarn.resourcemanager.address</name>
    <value>resourcemanager.example.com:8032</value>
  </property>
  <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>resourcemanager.example.com:8030</value>
  </property>
  <property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>resourcemanager.example.com:8088</value>
  </property>
  <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>resourcemanager.example.com:8031</value>
  </property>
  <property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>resourcemanager.example.com:8033</value>
  </property>
  <property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>8192</value>
  </property>
  <property>
    <name>yarn.scheduler.maximum-allocation-vcores</name>
    <value>4</value>
  </property>
</configuration>

Denken Sie daran, den YARN Resource Manager neu zu starten, nachdem Sie die Konfigurationsdatei geändert haben.

Überprüfung der YARN Resource Manager-Konfiguration

Nach der Konfiguration des YARN Resource Managers ist es wichtig, die Einrichtung zu überprüfen, um sicherzustellen, dass alles korrekt funktioniert. Hier sind einige Schritte, die Sie ausführen können, um die YARN Resource Manager-Konfiguration zu überprüfen:

Überprüfen des YARN Resource Manager-Status

Sie können den Status des YARN Resource Managers mit dem Befehl yarn rmadmin überprüfen:

yarn rmadmin -getServiceState

Dieser Befehl sollte den aktuellen Zustand des YARN Resource Managers zurückgeben, wie beispielsweise ACTIVE oder STANDBY (wenn er im Hochverfügbarkeitsmodus ausgeführt wird).

Überprüfen der YARN Resource Manager-Weboberfläche

Sie können die YARN Resource Manager-Weboberfläche über die konfigurierte Adresse und den Port in einem Webbrowser aufrufen. Die Weboberfläche sollte Informationen über den Cluster anzeigen, einschließlich der verfügbaren Ressourcen, der laufenden Anwendungen und vieles mehr.

Ein Testprogramm übermitteln

Um zu überprüfen, ob der YARN Resource Manager ordnungsgemäß funktioniert, können Sie ein Testprogramm an den Cluster übermitteln. Beispielsweise können Sie den Befehl yarn jar verwenden, um einen MapReduce-Auftrag zu übermitteln:

yarn jar /path/to/hadoop-mapreduce-examples.jar wordcount /input/path /output/path

Dadurch wird ein WordCount-MapReduce-Auftrag an den YARN-Cluster übermittelt, und Sie können den Fortschritt und die Beendigung des Auftrags in der YARN Resource Manager-Weboberfläche überwachen.

Die YARN Resource Manager-Protokolldateien überprüfen

Sie können auch die YARN Resource Manager-Protokolldateien auf Fehler oder Warnungen überprüfen, die auf Probleme mit der Einrichtung hinweisen können. Die Protokolldateien befinden sich normalerweise im Verzeichnis $HADOOP_LOG_DIR.

tail -n 100 $HADOOP_LOG_DIR/yarn-*-resourcemanager-*.log

Indem Sie diese Schritte ausführen, können Sie sicherstellen, dass der YARN Resource Manager richtig konfiguriert ist und wie erwartet funktioniert.

Zusammenfassung

Indem Sie die in diesem Tutorial beschriebenen Schritte befolgen, lernen Sie, wie Sie den YARN Resource Manager in Ihrem Hadoop-Cluster richtig konfigurieren. Dies gewährleistet eine effiziente Ressourcenverwaltung, eine verbesserte Leistung und eine stabile Hadoop-Umgebung. Das Verständnis der richtigen Konfiguration des YARN Resource Managers ist ein entscheidender Aspekt bei der Aufrechterhaltung einer robusten und skalierbaren Hadoop-Infrastruktur.