Wie man eine Hadoop-Jar-Datei mit Yarn ausführt

Einführung

Dieses Tutorial führt Sie durch den Prozess der Ausführung einer Hadoop-Jar-Datei mithilfe des Yarn-Ressourcenmanagers. Hadoop ist ein leistungsstarkes Framework für die verteilte Datenverarbeitung, und Yarn ist die Komponente zur Ressourcenverwaltung und Auftragsplanung, die die effiziente Ausführung von Hadoop-Aufträgen ermöglicht. Am Ende dieses Tutorials werden Sie einen soliden Überblick darüber haben, wie Sie Hadoop-Jar-Dateien auf der Yarn-Plattform ausführen können, sowie Techniken zur Optimierung und Fehlerbehebung bei der Ausführung Ihrer Hadoop-Aufträge kennen.

Einführung in Hadoop und YARN

Was ist Hadoop?

Hadoop ist ein Open-Source-Softwareframework zur Speicherung und Verarbeitung großer Datensätze in einer verteilten Rechenumgebung. Es ist so konzipiert, dass es von einzelnen Servern auf Tausende von Maschinen skaliert werden kann, wobei jede Maschine lokale Rechenleistung und Speicherplatz bietet. Hadoop basiert auf dem MapReduce-Programmierungsmodel (MapReduce-Programmierparadigma), das eine Aufgabe in kleinere Teilaufgaben aufteilt, diese auf einem Cluster von Computern verteilt und dann die Ergebnisse zusammenführt.

Was ist YARN?

YARN (Yet Another Resource Negotiator) ist ein Framework zur Ressourcenverwaltung und Auftragsplanung in Hadoop. Es ist für die Verwaltung der Rechenressourcen in einem Hadoop-Cluster und die Planung der Ausführung von Anwendungen verantwortlich. YARN trennt die Funktionen der Ressourcenverwaltung und der Auftragsplanung/ -überwachung des JobTrackers in separate Daemons auf: einen globalen ResourceManager und pro Anwendung einen ApplicationMaster.

graph TD
    A[Client] --> B[ResourceManager]
    B --> C[NodeManager]
    C --> D[Container]
    D --> E[Application]

Hadoop-Ökosystem

Hadoop ist Teil eines größeren Ökosystems von Tools und Technologien, die zusammenarbeiten, um eine umfassende Plattform zur Datenverarbeitung und -analyse bereitzustellen. Einige der Schlüsselkomponenten im Hadoop-Ökosystem sind:

HDFS (Hadoop Distributed File System)
MapReduce
Hive
Spark
Kafka
Impala
Sqoop
Flume

Anwendungsfälle für Hadoop

Hadoop wird in einer Vielzahl von Branchen und Anwendungen weit verbreitet eingesetzt, darunter:

Big Data-Analyse
Log-Verarbeitung
Clickstream-Analyse
Empfehlungssysteme
Betrugsdetektion
Genomforschung
Internet der Dinge (Internet of Things, IoT) -Datenverarbeitung

Ausführen einer Hadoop-Jar-Datei mit YARN

Übermitteln einer Hadoop-Jar-Datei an YARN

Um eine Hadoop-Jar-Datei mit YARN auszuführen, können Sie die folgenden Schritte ausführen:

Bauen Sie Ihre Hadoop-Anwendung: Entwickeln Sie Ihre Hadoop-Anwendung und packen Sie sie in eine Jar-Datei.
Laden Sie die Jar-Datei in HDFS hoch: Verwenden Sie den Befehl hadoop fs, um Ihre Jar-Datei in das Hadoop Distributed File System (HDFS) hochzuladen.

hadoop fs -put my-hadoop-app.jar /user/username/jars/

Übermitteln Sie den Auftrag an YARN: Verwenden Sie den Befehl yarn jar, um Ihre Hadoop-Anwendung an YARN zur Ausführung zu übermitteln.

yarn jar /user/username/jars/my-hadoop-app.jar com.example.MyHadoopApp

Dieser Befehl übermittelt Ihre Hadoop-Anwendung an den YARN-ResourceManager, der dann die Ausführung Ihrer Anwendung im Cluster plant und verwaltet.

Überwachen und Beheben von Problemen bei Hadoop-Aufträgen auf YARN

Sie können die YARN-Web-UI oder den Befehl yarn application verwenden, um den Status und den Fortschritt Ihrer auf YARN laufenden Hadoop-Aufträge zu überwachen.

## Zeigen Sie die Liste der laufenden Anwendungen an
yarn application -list

## Zeigen Sie die Details einer bestimmten Anwendung an
yarn application -status application_1234567890_0001

Wenn Sie während der Ausführung Ihres Hadoop-Auftrags Probleme oder Fehler feststellen, können Sie die Anwendungs- und die NodeManager-Protokolle überprüfen, um bei der Fehlerbehebung zu helfen.

## Zeigen Sie die Protokolle für eine bestimmte Anwendung an
yarn logs -applicationId application_1234567890_0001

Ressourcenzuweisung und Optimierung

Wenn Sie Hadoop-Aufträge auf YARN ausführen, können Sie verschiedene Parameter konfigurieren, um die Ressourcenzuweisung und die Leistung Ihrer Anwendungen zu optimieren. Einige Schlüsselparameter, die Sie berücksichtigen sollten, sind:

Speicher und CPU: Geben Sie den erforderlichen Speicher und die erforderlichen CPU-Ressourcen für Ihre Anwendungscontainer an.
Anzahl der Container: Passen Sie die Anzahl der Container (Aufgaben) an, die für Ihre Anwendung verwendet werden sollen.
Parallelität: Konfigurieren Sie den Grad der Parallelität für Ihre MapReduce- oder Spark-Aufträge.
Komprimierung: Aktivieren Sie die Datenkomprimierung, um den Netzwerk- und Speicheraufwand zu reduzieren.

Durch die richtige Konfiguration dieser Parameter können Sie eine effiziente Ressourcennutzung gewährleisten und die Gesamtleistung Ihrer auf YARN laufenden Hadoop-Anwendungen verbessern.

Optimierung und Fehlerbehebung bei der Ausführung von Hadoop-Jar-Dateien

Ressourcenkonfiguration und Optimierung

Beim Ausführen von Hadoop-Aufträgen auf YARN ist es wichtig, die Ressourcenzuweisung richtig zu konfigurieren, um eine effiziente Nutzung und Leistung zu gewährleisten. Hier sind einige wichtige Optimierungstechniken:

Speicher- und CPU-Konfiguration

Legen Sie die geeigneten Speicher- und CPU-Anforderungen für Ihre Anwendungscontainer mit den Optionen --driver-memory, --executor-memory, --num-executors und --executor-cores fest.

yarn jar my-hadoop-app.jar \
  --driver-memory 4g \
  --executor-memory 2g \
  --num-executors 10 \
  --executor-cores 2 \
  com.example.MyHadoopApp

Parallelitätseinstellung

Passen Sie den Grad der Parallelität für Ihre MapReduce- oder Spark-Aufträge an, indem Sie die Anzahl der Map- und Reduce-Aufgaben oder die Anzahl der Partitionen festlegen.

yarn jar my-hadoop-app.jar \
  -D mapreduce.job.maps=50 \
  -D mapreduce.job.reduces=20 \
  com.example.MyMapReduceApp

Datenkomprimierung

Aktivieren Sie die Datenkomprimierung, um den Netzwerk- und Speicheraufwand zu reduzieren. Sie können den Komprimierungs-Codec und die Komprimierungsstufe konfigurieren.

yarn jar my-hadoop-app.jar \
  -Dmapreduce.output.fileoutputformat.compress=true \
  -Dmapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.GzipCodec \
  com.example.MyMapReduceApp

Fehlerbehebung bei der Ausführung von Hadoop-Jar-Dateien

Wenn Sie während der Ausführung Ihrer Hadoop-Jar-Datei Probleme auftreten, können Sie die folgenden Schritte zur Fehlerbehebung ausführen:

Überprüfen Sie die Anwendungslogs: Verwenden Sie den Befehl yarn logs, um die Logs Ihrer Hadoop-Anwendung anzuzeigen und eventuelle Fehler oder Warnungen zu identifizieren.
Untersuchen Sie die NodeManager-Logs: Überprüfen Sie die Logs des NodeManager-Daemons auf den Knoten, auf denen Ihre Anwendung läuft, um detailliertere Informationen zu den Problemen zu erhalten.
Verifizieren Sie die Verfügbarkeit der Ressourcen: Stellen Sie sicher, dass der Hadoop-Cluster über ausreichende Ressourcen (Speicher, CPU, Festplattenspeicher) verfügt, um Ihre Anwendung auszuführen.
Analysieren Sie die Anwendungs-Konfigurationen: Überprüfen Sie die für Ihre Anwendung festgelegten Konfigurationsparameter, wie Speicher, CPU und Parallelität, und passen Sie sie bei Bedarf an.
Debuggen Sie Ihren Anwendungscode: Wenn das Problem mit Ihrer Anwendungslogik zusammenhängt, verwenden Sie Debugging-Techniken, um Fehler oder Probleme in Ihrem Hadoop-Anwendungscode zu identifizieren und zu beheben.

Indem Sie diese Optimierungs- und Fehlerbehebungsschritte befolgen, können Sie sicherstellen, dass Ihre Hadoop-Jar-Dateien effizient und effektiv im YARN-Cluster ausgeführt werden.

Zusammenfassung

In diesem umfassenden Hadoop-Tutorial haben Sie gelernt, wie Sie eine Hadoop-Jar-Datei mithilfe des Yarn-Ressourcenmanagers ausführen können. Sie haben den schrittweisen Prozess sowie Techniken zur Optimierung und Fehlerbehebung bei der Ausführung von Hadoop-Aufträgen untersucht. Mit diesen Kenntnissen können Sie nun Ihre Hadoop-Anwendungen sicher auf der Yarn-Plattform bereitstellen und verwalten und so eine effiziente und zuverlässige Datenverarbeitung im großen Stil gewährleisten.