Compilando y Ejecutando el Trabajo
En este paso, compilaremos las clases Java y ejecutaremos el trabajo MapReduce en el clúster de Hadoop.
Primero, necesitamos compilar las clases Java:
javac -source 8 -target 8 -classpath $HADOOP_HOME/share/hadoop/common/hadoop-common-3.3.6.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-3.3.6.jar:. *.java
Este comando compila las clases Java y coloca los archivos .class
compilados en el directorio actual. La opción -classpath
incluye las rutas de la biblioteca de Hadoop, que se necesitan para compilar el código que utiliza clases de Hadoop. Los parámetros -source
y -target
se utilizan para especificar las versiones de código fuente y bytecode objetivo de Java para coincidir con la versión de Java en Hadoop
Luego, empaquetamos los archivos class
con el comando jar
:
jar -cvf Artifact.jar *.class
Finalmente, podemos ejecutar el trabajo MapReduce, y todos los datos sobre el desierto ya están almacenados en el directorio HDFS /input
:
hadoop jar Artifact.jar ArtifactDriver /input /output
Después de ejecutar el comando, debería ver registros que indican el progreso del trabajo MapReduce. Una vez que el trabajo se complete, puede encontrar los archivos de salida en el directorio HDFS /output
. Y use el siguiente comando para ver el resultado:
hdfs dfs -ls /output
hdfs dfs -cat /output/part-r-00000