Comment démarrer et arrêter les services Hadoop YARN

Introduction

Hadoop YARN (Yet Another Resource Negotiator) est un composant essentiel de l'écosystème Hadoop, chargé de gérer et d'allouer les ressources au sein d'un cluster Hadoop. Dans ce tutoriel, nous vous guiderons tout au long du processus de démarrage et d'arrêt des services Hadoop YARN, afin de garantir le bon fonctionnement de votre cluster Hadoop.

Aperçu de Hadoop YARN

Hadoop YARN (Yet Another Resource Negotiator) est la composante de gestion des ressources et de planification des tâches de l'écosystème Apache Hadoop. Il a été introduit dans Hadoop 2.0 pour remédier aux limitations du framework MapReduce 1.0 (également connu sous le nom de MRv1) antérieur.

YARN est chargé de gérer les ressources de calcul (processeur, mémoire, stockage, etc.) d'un cluster Hadoop et de planifier l'exécution des applications utilisateur sur ces ressources. Il offre une architecture plus flexible et évolutive par rapport à la conception monolithique de MapReduce 1.0.

Composants clés de Hadoop YARN

Les principaux composants de Hadoop YARN sont les suivants :

Resource Manager (RM) : L'autorité centrale qui gère les ressources du cluster et planifie les applications.
Node Manager (NM) : L'agent exécuté sur chaque nœud du cluster, chargé de lancer et de surveiller les conteneurs, ainsi que de rapporter l'utilisation des ressources et l'état au Resource Manager.
Application Master (AM) : Un framework par application qui est chargé de négocier les ressources auprès du Resource Manager et de travailler avec les Node Managers pour exécuter et surveiller les tâches de l'application.
Container : L'unité de base d'exécution dans YARN, qui encapsule le processeur, la mémoire, le disque et d'autres ressources.

graph TD
    A[Resource Manager] --> B[Node Manager]
    A --> C[Application Master]
    B --> D[Container]

Flux de travail d'exécution d'une application YARN

Le flux de travail typique pour exécuter une application YARN est le suivant :

Le client soumet une application au Resource Manager.
Le Resource Manager alloue les ressources nécessaires et lance l'Application Master.
L'Application Master négocie des ressources supplémentaires auprès du Resource Manager et lance les tâches de l'application dans des conteneurs sur les Node Managers.
Les Node Managers surveillent les conteneurs et rapportent leur état à l'Application Master et au Resource Manager.
À la fin, l'Application Master rapporte l'état final de l'application au Resource Manager.

En séparant les préoccupations de gestion des ressources et de planification des tâches du traitement réel des données, YARN offre une architecture plus évolutive et tolérante aux pannes pour exécuter des applications distribuées à grande échelle sur des clusters Hadoop.

Lancement des services Hadoop YARN

Pour démarrer les services Hadoop YARN, vous devez vous assurer que le cluster Hadoop est correctement configuré et que les démons nécessaires sont en cours d'exécution.

Prérequis

Installez Hadoop sur votre système. Vous pouvez suivre le guide LabEx sur Comment installer Hadoop sur Ubuntu 22.04.
Assurez-vous que les fichiers de configuration Hadoop (par exemple, core-site.xml, hdfs-site.xml, yarn-site.xml) sont correctement configurés.

Démarrage des services YARN

Démarrez les services HDFS (NameNode et DataNode) s'ils ne sont pas déjà en cours d'exécution :

sudo /usr/local/hadoop/sbin/start-dfs.sh

Démarrez les services YARN (Resource Manager et Node Manager) :

sudo /usr/local/hadoop/sbin/start-yarn.sh

Vérifiez l'état des services YARN :

sudo /usr/local/hadoop/bin/yarn node -list

Cette commande répertoriera tous les Node Managers actifs et leur utilisation des ressources.

Accédez à l'interface web YARN :
- Interface web du Resource Manager : http://<resource-manager-host>:8088
- Interface web du Node Manager : http://<node-manager-host>:8042

Ces interfaces web fournissent une vue d'ensemble visuelle du cluster YARN, y compris l'utilisation des ressources, les applications en cours d'exécution, etc.

En suivant ces étapes, vous pouvez démarrer avec succès les services Hadoop YARN et préparer votre cluster pour exécuter des applications distribuées.

Arrêt des services Hadoop YARN

Lorsque vous avez besoin d'arrêter les services Hadoop YARN, vous pouvez suivre ces étapes pour arrêter proprement les composants YARN.

Arrêt des services YARN

Arrêtez les Node Managers YARN :

sudo /usr/local/hadoop/sbin/stop-yarn.sh

Cette commande arrêtera tous les démons Node Manager en cours d'exécution sur les nœuds du cluster.

Arrêtez le Resource Manager YARN :

sudo /usr/local/hadoop/bin/yarn rmadmin -shutdownRM

Cette commande arrêtera proprement le démon Resource Manager.

Arrêt des services HDFS

Après avoir arrêté les services YARN, vous pouvez également arrêter les services HDFS (NameNode et DataNode) si nécessaire :

sudo /usr/local/hadoop/sbin/stop-dfs.sh

Cette commande arrêtera les démons HDFS en cours d'exécution sur le cluster.

Vérification de l'arrêt

Vous pouvez vérifier l'arrêt des services YARN et HDFS en vérifiant l'état des processus :

sudo jps

Cette commande répertoriera tous les processus Java en cours d'exécution sur le système. Vous ne devriez plus voir de processus liés à Hadoop après avoir arrêté les services.

En suivant ces étapes, vous pouvez arrêter avec succès les services Hadoop YARN et, si nécessaire, les services HDFS également. Cela peut être utile lorsque vous devez effectuer des opérations de maintenance, mettre à niveau le cluster ou arrêter le système pour une raison quelconque.

Résumé

Ce tutoriel fournit un guide complet sur la gestion des services Hadoop YARN, couvrant les étapes pour démarrer et arrêter efficacement ces services. En comprenant comment contrôler le cycle de vie de Hadoop YARN, vous pouvez garantir les performances optimales et la fiabilité de votre cluster Hadoop, en faisant une ressource précieuse pour vos besoins de traitement de données.