Wie man Hadoop YARN - Dienste startet und stoppt

HadoopHadoopBeginner
Jetzt üben

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

Hadoop YARN (Yet Another Resource Negotiator) ist eine entscheidende Komponente des Hadoop - Ökosystems und verantwortlich für die Verwaltung und Zuweisung von Ressourcen innerhalb eines Hadoop - Clusters. In diesem Tutorial führen wir Sie durch den Prozess des Startens und Stoppens der Hadoop YARN - Dienste, um sicherzustellen, dass Ihr Hadoop - Cluster reibungslos funktioniert.

Überblick über Hadoop YARN

Hadoop YARN (Yet Another Resource Negotiator) ist die Ressourcenverwaltung und die Job - Scheduling - Komponente des Apache Hadoop - Ökosystems. Es wurde in Hadoop 2.0 eingeführt, um die Einschränkungen des früheren MapReduce 1.0 - Frameworks (auch bekannt als MRv1) zu beheben.

YARN ist für die Verwaltung der Rechenressourcen (CPU, Arbeitsspeicher, Speicher usw.) eines Hadoop - Clusters und die Planung der Ausführung von Benutzeranwendungen auf diesen Ressourcen verantwortlich. Im Vergleich zum monolithischen Design von MapReduce 1.0 bietet es eine flexiblere und skalierbarere Architektur.

Hauptkomponenten von Hadoop YARN

Die Hauptkomponenten von Hadoop YARN sind:

  1. Resource Manager (RM): Die zentrale Instanz, die die Ressourcen des Clusters verwaltet und Anwendungen plant.
  2. Node Manager (NM): Der Agent, der auf jedem Knoten im Cluster läuft und für das Starten und Überwachen von Containern sowie für das Melden der Ressourcennutzung und des Status an den Resource Manager verantwortlich ist.
  3. Application Master (AM): Ein pro - Anwendung - Framework, das für die Aushandlung von Ressourcen beim Resource Manager und die Zusammenarbeit mit den Node Managern zur Ausführung und Überwachung der Aufgaben der Anwendung verantwortlich ist.
  4. Container: Die grundlegende Ausführungseinheit in YARN, die CPU, Arbeitsspeicher, Festplatte und andere Ressourcen kapselt.
graph TD A[Resource Manager] --> B[Node Manager] A --> C[Application Master] B --> D[Container]

YARN - Anwendungsausführungsworkflow

Der typische Workflow für das Ausführen einer YARN - Anwendung ist wie folgt:

  1. Der Client übermittelt eine Anwendung an den Resource Manager.
  2. Der Resource Manager weist die erforderlichen Ressourcen zu und startet den Application Master.
  3. Der Application Master verhandelt zusätzliche Ressourcen beim Resource Manager und startet die Aufgaben der Anwendung in Containern auf den Node Managern.
  4. Die Node Manager überwachen die Container und melden ihren Status an den Application Master und den Resource Manager zurück.
  5. Nach Abschluss meldet der Application Master den endgültigen Status der Anwendung an den Resource Manager.

Indem YARN die Ressourcenverwaltung und die Job - Scheduling - Aspekte von der eigentlichen Datenverarbeitung trennt, bietet es eine skalierbarere und fehlertolerantere Architektur für das Ausführen von groß angelegten verteilten Anwendungen auf Hadoop - Clustern.

Starten der Hadoop YARN - Dienste

Um die Hadoop YARN - Dienste zu starten, müssen Sie sicherstellen, dass der Hadoop - Cluster richtig konfiguriert ist und die erforderlichen Daemons laufen.

Voraussetzungen

  1. Installieren Sie Hadoop auf Ihrem System. Sie können sich an der LabEx - Anleitung How to Install Hadoop on Ubuntu 22.04 orientieren.
  2. Stellen Sie sicher, dass die Hadoop - Konfigurationsdateien (z. B. core - site.xml, hdfs - site.xml, yarn - site.xml) richtig eingerichtet sind.

Starten der YARN - Dienste

  1. Starten Sie die HDFS - Dienste (NameNode und DataNode), wenn sie noch nicht laufen:
sudo /usr/local/hadoop/sbin/start-dfs.sh
  1. Starten Sie die YARN - Dienste (Resource Manager und Node Manager):
sudo /usr/local/hadoop/sbin/start-yarn.sh
  1. Überprüfen Sie den Status der YARN - Dienste:
sudo /usr/local/hadoop/bin/yarn node -list

Dieser Befehl listet alle aktiven Node Manager und ihre Ressourcennutzung auf.

  1. Greifen Sie auf die YARN - Web - Oberfläche zu:
    • Resource Manager - Oberfläche: http://<resource - manager - host>:8088
    • Node Manager - Oberfläche: http://<node - manager - host>:8042

Diese Web - Schnittstellen bieten einen visuellen Überblick über den YARN - Cluster, einschließlich der Ressourcennutzung, laufender Anwendungen und mehr.

Indem Sie diese Schritte befolgen, können Sie die Hadoop YARN - Dienste erfolgreich starten und Ihren Cluster für die Ausführung verteilter Anwendungen vorbereiten.

Stoppen der Hadoop YARN - Dienste

Wenn Sie die Hadoop YARN - Dienste herunterfahren müssen, können Sie diese Schritte befolgen, um die YARN - Komponenten ordnungsgemäß zu stoppen.

Stoppen der YARN - Dienste

  1. Stoppen Sie die YARN Node Manager:
sudo /usr/local/hadoop/sbin/stop-yarn.sh

Dieser Befehl stoppt alle auf den Clusterknoten laufenden Node Manager - Daemons.

  1. Stoppen Sie den YARN Resource Manager:
sudo /usr/local/hadoop/bin/yarn rmadmin -shutdownRM

Dieser Befehl stoppt den Resource Manager - Daemon ordnungsgemäß.

Stoppen der HDFS - Dienste

Nachdem Sie die YARN - Dienste gestoppt haben, können Sie auch die HDFS - Dienste (NameNode und DataNode) stoppen, wenn erforderlich:

sudo /usr/local/hadoop/sbin/stop-dfs.sh

Dieser Befehl stoppt die auf dem Cluster laufenden HDFS - Daemons.

Überprüfen des Herunterfahrens

Sie können das Herunterfahren der YARN - und HDFS - Dienste überprüfen, indem Sie den Prozessstatus prüfen:

sudo jps

Dieser Befehl listet alle auf dem System laufenden Java - Prozesse auf. Nach dem Stoppen der Dienste sollten Sie keine Hadoop - verwandten Prozesse mehr sehen.

Indem Sie diese Schritte befolgen, können Sie die Hadoop YARN - Dienste und, wenn erforderlich, auch die HDFS - Dienste erfolgreich stoppen. Dies kann nützlich sein, wenn Sie Wartungsarbeiten durchführen, den Cluster aktualisieren oder aus einem beliebigen Grund das System herunterfahren müssen.

Zusammenfassung

Dieses Tutorial bietet eine umfassende Anleitung zur Verwaltung der Hadoop YARN - Dienste und behandelt die Schritte zum effektiven Starten und Stoppen dieser Dienste. Indem Sie verstehen, wie Sie den Lebenszyklus von Hadoop YARN steuern können, können Sie die optimale Leistung und Zuverlässigkeit Ihres Hadoop - Clusters gewährleisten und ihn zu einer wertvollen Ressource für Ihre Datenverarbeitungsanforderungen machen.