Ausführen einer Hadoop-Jar-Datei mit YARN
Übermitteln einer Hadoop-Jar-Datei an YARN
Um eine Hadoop-Jar-Datei mit YARN auszuführen, können Sie die folgenden Schritte ausführen:
-
Bauen Sie Ihre Hadoop-Anwendung: Entwickeln Sie Ihre Hadoop-Anwendung und packen Sie sie in eine Jar-Datei.
-
Laden Sie die Jar-Datei in HDFS hoch: Verwenden Sie den Befehl hadoop fs
, um Ihre Jar-Datei in das Hadoop Distributed File System (HDFS) hochzuladen.
hadoop fs -put my-hadoop-app.jar /user/username/jars/
- Übermitteln Sie den Auftrag an YARN: Verwenden Sie den Befehl
yarn jar
, um Ihre Hadoop-Anwendung an YARN zur Ausführung zu übermitteln.
yarn jar /user/username/jars/my-hadoop-app.jar com.example.MyHadoopApp
Dieser Befehl übermittelt Ihre Hadoop-Anwendung an den YARN-ResourceManager, der dann die Ausführung Ihrer Anwendung im Cluster plant und verwaltet.
Überwachen und Beheben von Problemen bei Hadoop-Aufträgen auf YARN
Sie können die YARN-Web-UI oder den Befehl yarn application
verwenden, um den Status und den Fortschritt Ihrer auf YARN laufenden Hadoop-Aufträge zu überwachen.
## Zeigen Sie die Liste der laufenden Anwendungen an
yarn application -list
## Zeigen Sie die Details einer bestimmten Anwendung an
yarn application -status application_1234567890_0001
Wenn Sie während der Ausführung Ihres Hadoop-Auftrags Probleme oder Fehler feststellen, können Sie die Anwendungs- und die NodeManager-Protokolle überprüfen, um bei der Fehlerbehebung zu helfen.
## Zeigen Sie die Protokolle für eine bestimmte Anwendung an
yarn logs -applicationId application_1234567890_0001
Ressourcenzuweisung und Optimierung
Wenn Sie Hadoop-Aufträge auf YARN ausführen, können Sie verschiedene Parameter konfigurieren, um die Ressourcenzuweisung und die Leistung Ihrer Anwendungen zu optimieren. Einige Schlüsselparameter, die Sie berücksichtigen sollten, sind:
- Speicher und CPU: Geben Sie den erforderlichen Speicher und die erforderlichen CPU-Ressourcen für Ihre Anwendungscontainer an.
- Anzahl der Container: Passen Sie die Anzahl der Container (Aufgaben) an, die für Ihre Anwendung verwendet werden sollen.
- Parallelität: Konfigurieren Sie den Grad der Parallelität für Ihre MapReduce- oder Spark-Aufträge.
- Komprimierung: Aktivieren Sie die Datenkomprimierung, um den Netzwerk- und Speicheraufwand zu reduzieren.
Durch die richtige Konfiguration dieser Parameter können Sie eine effiziente Ressourcennutzung gewährleisten und die Gesamtleistung Ihrer auf YARN laufenden Hadoop-Anwendungen verbessern.