Réplication de données Hadoop

HadoopHadoopBeginner
Pratiquer maintenant

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

Bienvenue dans le monde de la réplication de données Hadoop! Dans ce laboratoire, vous allez entreprendre un voyage passionnant à travers un portail de voyage dans le temps en tant que voyageur dans le temps qui doit naviguer dans les complexités de Hadoop HDFS et de sa fonction de réplication de données. Votre objectif est d'assurer que les données sont répliquées efficacement pour améliorer la tolérance aux pannes et la disponibilité des données dans un environnement distribué, tout comme un administrateur Hadoop expérimenté.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL hadoop(("Hadoop")) -.-> hadoop/HadoopHDFSGroup(["Hadoop HDFS"]) hadoop/HadoopHDFSGroup -.-> hadoop/hdfs_setup("HDFS Setup") hadoop/HadoopHDFSGroup -.-> hadoop/fs_put("FS Shell copyToLocal/put") hadoop/HadoopHDFSGroup -.-> hadoop/data_replication("Data Replication") hadoop/HadoopHDFSGroup -.-> hadoop/storage_policies("Storage Policies Management") subgraph Lab Skills hadoop/hdfs_setup -.-> lab-271852{{"Réplication de données Hadoop"}} hadoop/fs_put -.-> lab-271852{{"Réplication de données Hadoop"}} hadoop/data_replication -.-> lab-271852{{"Réplication de données Hadoop"}} hadoop/storage_policies -.-> lab-271852{{"Réplication de données Hadoop"}} end

Comprendre la réplication de données Hadoop

Dans cette étape, vous plongerez dans le concept de réplication de données dans Hadoop et comprendrez comment elle contribue à la haute disponibilité et à la fiabilité des données distribuées. Commençons par explorer les paramètres de configuration liés à la réplication de données dans HDFS.

  1. Ouvrez un terminal et basculez sur l'utilisateur hadoop :

    su - hadoop
  2. Ouvrez le fichier hdfs-site.xml à l'aide d'un éditeur de texte :

    vim /home/hadoop/hadoop/etc/hadoop/hdfs-site.xml

    Ou

    nano /home/hadoop/hadoop/etc/hadoop/hdfs-site.xml
  3. Localisez le paramètre définissant le facteur de réplication et définissez-le sur une valeur de 3 :

    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
  4. Enregistrez les modifications et quittez l'éditeur de texte.

  5. Vérifiez que le facteur de réplication a été correctement défini en vérifiant la configuration HDFS :

    hdfs getconf -confKey dfs.replication
  6. Pour appliquer les modifications, redémarrez le service HDFS :

    Arrêtez le service HDFS :

    /home/hadoop/hadoop/sbin/stop-dfs.sh

    Démarrez le service HDFS :

    /home/hadoop/hadoop/sbin/start-dfs.sh

Tester la réplication de données

Dans cette étape, vous créerez un fichier d'échantillonnage dans HDFS et observerez comment le processus de réplication de données fonctionne pour maintenir des copies redondantes des blocs de données afin d'obtenir une tolérance aux pannes.

  1. Créez un nouveau fichier dans HDFS :

    echo "Hello, HDFS" | hdfs dfs -put - /user/hadoop/samplefile.txt
  2. Vérifiez l'état de réplication du fichier pour voir combien de réplicas ont été créés :

    hdfs fsck /home/hadoop/samplefile.txt -files -blocks -locations
  3. Affichez l'état du fichier sur la base de la sortie :

    ...
    Blocs répliqués :
    Taille totale :    12 o
    Nombre total de fichiers :   1
    Nombre total de blocs (validés) :      1 (taille moyenne du bloc 12 o)
    Blocs répliqués au minimum :   1 (100,0 %)
    Blocs surrépliqués :        0 (0,0 %)
    Blocs sous-répliqués :       1 (100,0 %)
    Blocs mal répliqués :         0 (0,0 %)
    Facteur de réplication par défaut :    3
    Réplication moyenne des blocs :     1,0
    Blocs manquants :                0
    Blocs corrompus :                0
    Réplicas manquants :              2 (66,666664 %)
    Blocs mis en file d'attente pour la réplication : 0
    ...

Sommaire

Dans ce laboratoire, nous avons approfondi le concept essentiel de la réplication de données Hadoop dans HDFS. En configurant le facteur de réplication et en observant le processus de réplication en action, vous avez acquis une compréhension plus approfondie de la manière dont Hadoop assure la durabilité des données et la tolérance aux pannes dans un environnement distribué. Explorer ces aspects ne vous améliore pas seulement les compétences en Hadoop, mais vous fournit également les connaissances nécessaires pour maintenir une infrastructure de données robuste utilisant Hadoop. Amusez-vous bien à explorer le monde de la réplication de données Hadoop!