Explorando el Conjunto de Datos de Gemas
En este paso, nos familiarizaremos con el conjunto de datos de gemas y su estructura, sentando las bases para nuestro análisis posterior.
Primero, asegúrese de estar registrado como el usuario hadoop
ejecutando el siguiente comando en la terminal:
su - hadoop
Ahora comencemos creando un ejemplo. Copie la siguiente línea de comando en la terminal para crear nuestro archivo de muestra.
mkdir -p hadoop/gemstone_data
cd hadoop/gemstone_data
echo "gem_id,gem_name,color,hardness,density,refractive_index" > gem_properties.csv
echo "1,Ruby ,Red ,9.0,4.0,1.77" >> gem_properties.csv
echo "2,Emerald,Green ,8.0,3.1,1.58" >> gem_properties.csv
echo "3,Sapphire,Blue ,9.0,4.0,1.76" >> gem_properties.csv
echo "4,Diamond,Colorless,10.0,3.5,2.42" >> gem_properties.csv
echo "5,Amethyst,Purple ,7.0,2.6,1.54" >> gem_properties.csv
echo "6,Topaz ,Yellow ,8.0,3.5,1.63" >> gem_properties.csv
echo "7,Pearl ,White ,2.5,2.7,1.53" >> gem_properties.csv
echo "8,Agate ,Multi ,7.0,2.6,1.53" >> gem_properties.csv
echo "9,Rose ,Pink ,7.0,2.7,1.54" >> gem_properties.csv
echo "10,CatsEye,Green ,6.5,3.2,1.54" >> gem_properties.csv
echo "gem_id,application" > gem_applications.csv
echo "1,Fire Magic " >> gem_applications.csv
echo "2,Earth Magic " >> gem_applications.csv
echo "3,Water Magic " >> gem_applications.csv
echo "4,Enhancement Magic" >> gem_applications.csv
echo "5,Psychic Magic " >> gem_applications.csv
echo "6,Lightning Magic " >> gem_applications.csv
echo "7,Illusion Magic " >> gem_applications.csv
echo "8,Strength Magic " >> gem_applications.csv
echo "9,Love Magic " >> gem_applications.csv
echo "10,Stealth Magic " >> gem_applications.csv
Ahora ya estamos en el directorio gemstone_data, tomemos un momento para revisar el contenido de este directorio:
ls
A medida que navegue por el directorio, verá estos dos archivos, cada uno dedicado a un aspecto distinto de los datos de las gemas. gem_properties.csv
profundiza en las características físicas de las gemas, mientras que gem_applications.csv
proporciona información sobre sus variadas aplicaciones mágicas.
Para obtener una comprensión más profunda de nuestro conjunto de datos, echemos un vistazo a las primeras líneas de uno de estos archivos:
head -n 5 gem_properties.csv
El resultado debería ser el siguiente:
gem_id,gem_name,color,hardness,density,refractive_index
1,Ruby,Red,9.0,4.0,1.77
2,Emerald,Green,8.0,3.1,1.58
3,Sapphire,Blue,9.0,4.0,1.76
4,Diamond,Colorless,10.0,3.5,2.42
Este comando mostró las primeras cinco líneas del archivo gem_properties.csv
, brindándole una idea de su estructura y contenido.