Wie man die Hadoop NameNode- und DataNode-Dienste startet

Einführung

Hadoop ist ein beliebtes Open-Source-Framework für die verteilte Speicherung und Verarbeitung großer Datensätze. In diesem Tutorial führen wir Sie durch den Prozess des Startens der Hadoop NameNode- und DataNode-Dienste, die die Kernkomponenten eines Hadoop-Clusters sind. Am Ende dieses Artikels werden Sie einen soliden Überblick darüber haben, wie Sie Ihre Hadoop-Infrastruktur aufsetzen und in Betrieb nehmen können.

Hadoop-Grundlagen

Was ist Hadoop?

Hadoop ist ein Open-Source-Framework für die verteilte Speicherung und Verarbeitung großer Datensätze. Es ist so konzipiert, dass es von einem einzelnen Server auf Tausende von Maschinen skaliert werden kann, wobei jede Maschine lokale Rechenleistung und Speicherplatz bietet. Hadoop basiert auf dem Google File System (GFS) und dem MapReduce-Programmierungsmodel.

Wichtige Komponenten von Hadoop

Hadoop besteht aus zwei Hauptkomponenten:

Hadoop Distributed File System (HDFS): HDFS ist ein verteiltes Dateisystem, das einen Hochleistungszugriff auf Anwendungsdaten ermöglicht. Es ist so konzipiert, dass es auf kostengünstiger Hardware läuft und bietet Fehlertoleranz, Hochverfügbarkeit und Skalierbarkeit.
Hadoop MapReduce: Hadoop MapReduce ist ein Programmierungsmodel und ein Softwareframework zum Schreiben von Anwendungen, die riesige Datenmengen schnell parallel auf großen Clustern von Rechenknoten verarbeiten.

Hadoop-Architektur

Hadoop folgt einer Master-Slave-Architektur, bei der der Master-Knoten für die Verwaltung des Clusters verantwortlich ist und die Slave-Knoten für die Ausführung von Aufgaben.

graph TD
  Master[Master Node] --> DataNode[DataNode]
  Master --> NameNode[NameNode]
  DataNode --> Worker[Worker Nodes]
  NameNode --> HDFS[HDFS]

Hadoop-Anwendungsfälle

Hadoop wird in einer Vielzahl von Branchen und Anwendungen weit verbreitet eingesetzt, darunter:

Big Data-Analyse
Maschinelles Lernen und Künstliche Intelligenz
Protokollverarbeitung und -analyse
Clickstream-Analyse
Genomforschung
Empfehlungssysteme

Installation von Hadoop auf Ubuntu 22.04

Um Hadoop auf Ubuntu 22.04 zu installieren, befolgen Sie diese Schritte:

Aktualisieren Sie den Paketindex:

sudo apt-get update

Installieren Sie die erforderlichen Pakete:

sudo apt-get install openjdk-11-jdk hadoop

Konfigurieren Sie die Hadoop-Umgebungsvariablen:

export HADOOP_HOME=/usr/lib/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

Nachdem Sie nun ein grundlegendes Verständnis von Hadoop haben, gehen wir zum Starten der NameNode- und DataNode-Dienste über.

Starten des Hadoop NameNode

Grundlegendes zum NameNode

Der NameNode ist der Master-Knoten im Hadoop-Cluster und ist für die Verwaltung des Dateisystem-Namensraums verantwortlich, einschließlich des Öffnens, Schließens und Umbenennens von Dateien und Verzeichnissen. Er bestimmt auch die Zuordnung von Blöcken zu DataNodes.

Starten des NameNode

Um den NameNode zu starten, befolgen Sie diese Schritte:

Initialisieren Sie den NameNode:

hdfs namenode -format

Starten Sie den NameNode-Dienst:

hadoop-daemon.sh start namenode

Sie können überprüfen, ob der NameNode läuft, indem Sie die Weboberfläche unter http://localhost:9870 aufrufen.

Konfigurieren des NameNode

Die NameNode-Konfiguration wird in den Dateien $HADOOP_HOME/etc/hadoop/core-site.xml und $HADOOP_HOME/etc/hadoop/hdfs-site.xml gespeichert.

Hier ist ein Beispiel für eine Konfiguration:

<!-- core-site.xml -->
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>

<!-- hdfs-site.xml -->
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/path/to/namenode/data</value>
  </property>
</configuration>

Diese Konfigurationen setzen das Standard-Dateisystem auf HDFS, den Replikationsfaktor auf 3 und den Speicherort des NameNode-Datenverzeichnisses.

Nachdem der NameNode nun gestartet und läuft, gehen wir zum Starten der DataNode-Dienste über.

Starten des Hadoop DataNode

Grundlegendes zum DataNode

Der DataNode ist ein Slave-Knoten im Hadoop-Cluster und ist für die Speicherung und Verwaltung der Datenblöcke verantwortlich. Er kommuniziert mit dem NameNode, um die Liste der verfügbaren Blöcke zu melden und Anweisungen zur Datenreplikation und Blockverwaltung zu erhalten.

Starten des DataNode

Um den DataNode zu starten, befolgen Sie diese Schritte:

Formatieren Sie das Speicherverzeichnis des DataNode:

hdfs datanode -format

Starten Sie den DataNode-Dienst:

hadoop-daemon.sh start datanode

Sie können überprüfen, ob der DataNode läuft, indem Sie die Weboberfläche unter http://localhost:9864 aufrufen.

Konfigurieren des DataNode

Die DataNode-Konfiguration wird in der Datei $HADOOP_HOME/etc/hadoop/hdfs-site.xml gespeichert.

Hier ist ein Beispiel für eine Konfiguration:

<!-- hdfs-site.xml -->
<configuration>
  <property>
    <name>dfs.data.dir</name>
    <value>/path/to/datanode/data</value>
  </property>
</configuration>

Diese Konfiguration legt den Speicherort des DataNode-Datenverzeichnisses fest.

Überwachen des Hadoop-Clusters

Sie können den Hadoop-Cluster mithilfe der Weboberflächen des NameNode und des DataNode überwachen:

NameNode-Weboberfläche: http://localhost:9870
DataNode-Weboberfläche: http://localhost:9864

Diese Oberflächen liefern Informationen über den Clusterstatus, laufende Aufträge und die Ressourcennutzung.

Herzlichen Glückwunsch! Sie haben nun erfolgreich die Hadoop NameNode- und DataNode-Dienste gestartet. Mit diesen Kenntnissen können Sie beginnen, Ihre auf Hadoop basierenden Anwendungen zu entwickeln und auszuführen.

Zusammenfassung

Das Beherrschen des Startvorgangs der Hadoop NameNode- und DataNode-Dienste ist ein entscheidender Schritt bei der Einrichtung einer robusten Big-Data-Verarbeitungsumgebung. In diesem Tutorial haben wir die Grundlagenkonzepte von Hadoop behandelt und Schritt-für-Schritt-Anweisungen dazu gegeben, wie Sie diese wichtigen Dienste starten können. Mit diesen Kenntnissen können Sie nun Ihr Hadoop-Cluster sicher bereitstellen und verwalten, um den wachsenden Datenbedarf Ihrer Organisation zu decken.