Introducción
Hadoop es un popular framework de código abierto (framework de código abierto) para el almacenamiento y procesamiento distribuidos de grandes conjuntos de datos. En este tutorial, lo guiaremos a través del proceso de inicio de los servicios Hadoop NameNode y DataNode, que son los componentes principales de un clúster de Hadoop. Al final de este artículo, tendrá una comprensión sólida de cómo poner en marcha y hacer funcionar su infraestructura de Hadoop.
Conceptos básicos de Hadoop
¿Qué es Hadoop?
Hadoop es un framework de código abierto (framework de código abierto) para el almacenamiento y procesamiento distribuidos de grandes conjuntos de datos. Está diseñado para escalar desde un solo servidor hasta miles de máquinas, cada una ofreciendo cómputo y almacenamiento locales. Hadoop se basa en el Google File System (GFS) y el modelo de programación MapReduce.
Componentes principales de Hadoop
Hadoop consta de dos componentes principales:
Hadoop Distributed File System (HDFS): HDFS es un sistema de archivos distribuido que proporciona acceso de alto rendimiento a los datos de la aplicación. Está diseñado para ejecutarse en hardware de consumo y ofrece tolerancia a fallos, alta disponibilidad y escalabilidad.
Hadoop MapReduce: Hadoop MapReduce es un modelo de programación y un framework de software para escribir aplicaciones que procesan rápidamente grandes cantidades de datos en paralelo en grandes clústeres de nodos de cómputo.
Arquitectura de Hadoop
Hadoop sigue una arquitectura maestro-esclavo, donde el nodo maestro es responsable de administrar el clúster y los nodos esclavos son responsables de ejecutar las tareas.
graph TD
Master[Master Node] --> DataNode[DataNode]
Master --> NameNode[NameNode]
DataNode --> Worker[Worker Nodes]
NameNode --> HDFS[HDFS]
Casos de uso de Hadoop
Hadoop se utiliza ampliamente en una variedad de industrias y aplicaciones, incluyendo:
- Análisis de grandes datos (big data analytics)
- Aprendizaje automático (machine learning) e inteligencia artificial
- Procesamiento y análisis de registros (log processing and analysis)
- Análisis de flujos de clics (clickstream analysis)
- Investigación genómica
- Sistemas de recomendación
Instalación de Hadoop en Ubuntu 22.04
Para instalar Hadoop en Ubuntu 22.04, siga estos pasos:
- Actualice el índice de paquetes:
sudo apt-get update
- Instale los paquetes necesarios:
sudo apt-get install openjdk-11-jdk hadoop
- Configure las variables de entorno de Hadoop:
export HADOOP_HOME=/usr/lib/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
Ahora que tiene una comprensión básica de Hadoop, pasemos a lanzar los servicios NameNode y DataNode.
Iniciar el NameNode de Hadoop
Comprender el NameNode
El NameNode es el nodo maestro en el clúster de Hadoop y es responsable de administrar el espacio de nombres del sistema de archivos, incluyendo abrir, cerrar y renombrar archivos y directorios. También determina la asignación de bloques a los DataNodes.
Iniciar el NameNode
Para iniciar el NameNode, siga estos pasos:
- Inicialice el NameNode:
hdfs namenode -format
- Inicie el servicio NameNode:
hadoop-daemon.sh start namenode
Puede verificar que el NameNode está en ejecución comprobando la interfaz web en http://localhost:9870.
Configurar el NameNode
La configuración del NameNode se almacena en los archivos $HADOOP_HOME/etc/hadoop/core-site.xml y $HADOOP_HOME/etc/hadoop/hdfs-site.xml.
A continuación, se muestra un ejemplo de configuración:
<!-- core-site.xml -->
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
<!-- hdfs-site.xml -->
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/path/to/namenode/data</value>
</property>
</configuration>
Estas configuraciones establecen el sistema de archivos predeterminado en HDFS, el factor de replicación en 3 y la ubicación del directorio de datos del NameNode.
Ahora que el NameNode está en funcionamiento, pasemos a iniciar los servicios DataNode.
Iniciar el DataNode de Hadoop
Comprender el DataNode
El DataNode es un nodo esclavo en el clúster de Hadoop y es responsable de almacenar y administrar los bloques de datos. Se comunica con el NameNode para informar la lista de bloques disponibles y recibir instrucciones para la replicación de datos y la gestión de bloques.
Iniciar el DataNode
Para iniciar el DataNode, siga estos pasos:
- Formatee el directorio de almacenamiento del DataNode:
hdfs datanode -format
- Inicie el servicio DataNode:
hadoop-daemon.sh start datanode
Puede verificar que el DataNode está en ejecución comprobando la interfaz web en http://localhost:9864.
Configurar el DataNode
La configuración del DataNode se almacena en el archivo $HADOOP_HOME/etc/hadoop/hdfs-site.xml.
A continuación, se muestra un ejemplo de configuración:
<!-- hdfs-site.xml -->
<configuration>
<property>
<name>dfs.data.dir</name>
<value>/path/to/datanode/data</value>
</property>
</configuration>
Esta configuración establece la ubicación del directorio de datos del DataNode.
Monitorear el clúster de Hadoop
Puede monitorear el clúster de Hadoop utilizando las interfaces web proporcionadas por el NameNode y el DataNode:
- Interfaz web del NameNode:
http://localhost:9870 - Interfaz web del DataNode:
http://localhost:9864
Estas interfaces proporcionan información sobre el estado del clúster, los trabajos en ejecución y la utilización de recursos.
¡Felicidades! Ahora ha iniciado con éxito los servicios Hadoop NameNode y DataNode. Con este conocimiento, puede comenzar a construir y ejecutar sus aplicaciones basadas en Hadoop.
Resumen
Dominar el inicio de los servicios Hadoop NameNode y DataNode es un paso crucial para configurar un entorno sólido de procesamiento de grandes datos (big data). En este tutorial, hemos cubierto los conceptos fundamentales de Hadoop y proporcionado instrucciones paso a paso sobre cómo iniciar estos servicios esenciales. Con este conocimiento, ahora puede desplegar y administrar con confianza su clúster de Hadoop para satisfacer las crecientes necesidades de datos de su organización.



