Exploration du jeu de données de gemmes
Dans cette étape, nous allons familiariser nous avec le jeu de données de gemmes et sa structure, en posant les bases de notre analyse ultérieure.
Tout d'abord, assurez-vous d'être connecté en tant qu'utilisateur hadoop
en exécutant la commande suivante dans le terminal :
su - hadoop
Maintenant, commençons par créer un exemple. Copiez la ligne de commande suivante dans le terminal pour créer notre fichier d'échantillonnage.
mkdir -p hadoop/gemstone_data
cd hadoop/gemstone_data
echo "gem_id,gem_name,color,hardness,density,refractive_index" > gem_properties.csv
echo "1,Ruby ,Red ,9.0,4.0,1.77" >> gem_properties.csv
echo "2,Emerald,Green ,8.0,3.1,1.58" >> gem_properties.csv
echo "3,Sapphire,Blue ,9.0,4.0,1.76" >> gem_properties.csv
echo "4,Diamond,Colorless,10.0,3.5,2.42" >> gem_properties.csv
echo "5,Amethyst,Purple ,7.0,2.6,1.54" >> gem_properties.csv
echo "6,Topaz ,Yellow ,8.0,3.5,1.63" >> gem_properties.csv
echo "7,Pearl ,White ,2.5,2.7,1.53" >> gem_properties.csv
echo "8,Agate ,Multi ,7.0,2.6,1.53" >> gem_properties.csv
echo "9,Rose ,Pink ,7.0,2.7,1.54" >> gem_properties.csv
echo "10,CatsEye,Green ,6.5,3.2,1.54" >> gem_properties.csv
echo "gem_id,application" > gem_applications.csv
echo "1,Fire Magic " >> gem_applications.csv
echo "2,Earth Magic " >> gem_applications.csv
echo "3,Water Magic " >> gem_applications.csv
echo "4,Enhancement Magic" >> gem_applications.csv
echo "5,Psychic Magic " >> gem_applications.csv
echo "6,Lightning Magic " >> gem_applications.csv
echo "7,Illusion Magic " >> gem_applications.csv
echo "8,Strength Magic " >> gem_applications.csv
echo "9,Love Magic " >> gem_applications.csv
echo "10,Stealth Magic " >> gem_applications.csv
Maintenant que nous sommes dans le répertoire gemstone_data, prenons un moment pour examiner le contenu de ce répertoire :
ls
En parcourant le répertoire, vous verrez ces deux fichiers, chacun consacré à un aspect distinct des données sur les gemmes. gem_properties.csv
approfondit les caractéristiques physiques des gemmes, tandis que gem_applications.csv
fournit des informations sur leurs diverses utilisations magiques.
Pour mieux comprendre notre jeu de données, jetons un coup d'œil aux premières lignes de l'un de ces fichiers :
head -n 5 gem_properties.csv
Le résultat devrait être similaire au suivant :
gem_id,gem_name,color,hardness,density,refractive_index
1,Ruby,Red,9.0,4.0,1.77
2,Emerald,Green,8.0,3.1,1.58
3,Sapphire,Blue,9.0,4.0,1.76
4,Diamond,Colorless,10.0,3.5,2.42
Cette commande a affiché les cinq premières lignes du fichier gem_properties.csv
, vous donnant un aperçu de sa structure et de son contenu.