## Configuration en mode pseudo-distribué Dans la plupart des cas, Hadoop est utilisé dans un environnement en grappe, c'est-à-dire que nous devons déployer Hadoop sur plusieurs nœuds. En même temps, Hadoop peut également fonctionner sur un seul nœud en mode pseudo-distribué, simulant des scénarios multi-nœuds grâce à plusieurs processus Java indépendants. Dans la phase initiale d'apprentissage, il n'est pas nécessaire de consacrer beaucoup de ressources pour créer différents nœuds. **Ainsi, dans cette section et dans les chapitres suivants, nous utiliserons principalement le mode pseudo-distribué pour le déploiement du "cluster" Hadoop.** ### Création de répertoires Pour commencer, créez les répertoires `namenode` et `datanode` dans le répertoire personnel de l'utilisateur Hadoop. Exécutez la commande ci-dessous pour créer ces répertoires : ```bash rm -rf ~/hadoopdata mkdir -p ~/hadoopdata/hdfs/{namenode,datanode} ``` Ensuite, vous devez modifier les fichiers de configuration d'Hadoop pour qu'il fonctionne en mode pseudo-distribué. ### Édition de `core-site.xml` Ouvrez le fichier `core-site.xml` avec un éditeur de texte dans le terminal : ```bash vim /home/hadoop/hadoop/etc/hadoop/core-site.xml ``` Dans le fichier de configuration, modifiez la valeur de la balise `configuration` pour qu'elle soit la suivante : ```xml fs.defaultFS hdfs://localhost:9000 ``` L'élément de configuration `fs.defaultFS` est utilisé pour indiquer l'emplacement du système de fichiers utilisé par défaut par le cluster : Enregistrez le fichier et quittez `vim` après édition. ### Édition de `hdfs-site.xml` Ouvrez un autre fichier de configuration `hdfs-site.xml` : ```bash vim /home/hadoop/hadoop/etc/hadoop/hdfs-site.xml ``` Dans le fichier de configuration, modifiez la valeur de la balise `configuration` pour qu'elle soit la suivante : ```xml dfs.replication 1 dfs.name.dir file:///home/hadoop/hadoopdata/hdfs/namenode dfs.data.dir file:///home/hadoop/hadoopdata/hdfs/datanode ``` Cet élément de configuration est utilisé pour indiquer le nombre de copies de fichiers dans HDFS, qui est `3` par défaut. Puisque nous l'avons déployé de manière pseudo-distribuée sur un seul nœud, il est modifié en `1` : Enregistrez le fichier et quittez `vim` après édition. ### Édition de `hadoop-env.sh` Ensuite, éditez le fichier `hadoop-env.sh` : ```bash vim /home/hadoop/hadoop/etc/hadoop/hadoop-env.sh ``` Changez la valeur de `JAVA_HOME` pour le lieu réel de l'installation du JDK, c'est-à-dire `/usr/lib/jvm/java-11-openjdk-amd64`. > **Remarque** : Vous pouvez utiliser la commande `echo $JAVA_HOME` pour vérifier le lieu réel de l'installation du JDK. Enregistrez le fichier et quittez l'éditeur `vim` après édition. ### Édition de `yarn-site.xml` Ensuite, éditez le fichier `yarn-site.xml` : ```bash vim /home/hadoop/hadoop/etc/hadoop/yarn-site.xml ``` Ajoutez le code suivant à la balise `configuration` : ```xml yarn.nodemanager.aux-services mapreduce_shuffle ``` Enregistrez le fichier et quittez l'éditeur `vim` après édition. ### Édition de `mapred-site.xml` Enfin, vous devez éditer le fichier `mapred-site.xml`. Ouvrez le fichier avec l'éditeur `vim` : ```bash vim /home/hadoop/hadoop/etc/hadoop/mapred-site.xml ``` De même, ajoutez le code suivant à la balise `configuration` : ```xml mapreduce.framework.name yarn yarn.app.mapreduce.am.env HADOOP_MAPRED_HOME=/home/hadoop/hadoop mapreduce.map.env HADOOP_MAPRED_HOME=/home/hadoop/hadoop mapreduce.reduce.env HADOOP_MAPRED_HOME=/home/hadoop/hadoop ``` Enregistrez le fichier et quittez l'éditeur `vim` après édition.