Die Edelstein-Datenmenge erkunden
In diesem Schritt werden wir uns mit der Edelstein-Datenmenge und ihrer Struktur vertraut machen, um die Grundlage für unsere nachfolgende Analyse zu legen.
Stellen Sie zunächst sicher, dass Sie als Benutzer hadoop
angemeldet sind, indem Sie den folgenden Befehl in der Konsole ausführen:
su - hadoop
Lassen Sie uns nun mit dem Erstellen eines Beispiels beginnen. Kopieren Sie den folgenden Befehl in die Konsole, um unsere Beispiel-Datei zu erstellen.
mkdir -p hadoop/gemstone_data
cd hadoop/gemstone_data
echo "gem_id,gem_name,color,hardness,density,refractive_index" > gem_properties.csv
echo "1,Ruby ,Red ,9.0,4.0,1.77" >> gem_properties.csv
echo "2,Emerald,Green ,8.0,3.1,1.58" >> gem_properties.csv
echo "3,Sapphire,Blue ,9.0,4.0,1.76" >> gem_properties.csv
echo "4,Diamond,Colorless,10.0,3.5,2.42" >> gem_properties.csv
echo "5,Amethyst,Purple ,7.0,2.6,1.54" >> gem_properties.csv
echo "6,Topaz ,Yellow ,8.0,3.5,1.63" >> gem_properties.csv
echo "7,Pearl ,White ,2.5,2.7,1.53" >> gem_properties.csv
echo "8,Agate ,Multi ,7.0,2.6,1.53" >> gem_properties.csv
echo "9,Rose ,Pink ,7.0,2.7,1.54" >> gem_properties.csv
echo "10,CatsEye,Green ,6.5,3.2,1.54" >> gem_properties.csv
echo "gem_id,application" > gem_applications.csv
echo "1,Fire Magic " >> gem_applications.csv
echo "2,Earth Magic " >> gem_applications.csv
echo "3,Water Magic " >> gem_applications.csv
echo "4,Enhancement Magic" >> gem_applications.csv
echo "5,Psychic Magic " >> gem_applications.csv
echo "6,Lightning Magic " >> gem_applications.csv
echo "7,Illusion Magic " >> gem_applications.csv
echo "8,Strength Magic " >> gem_applications.csv
echo "9,Love Magic " >> gem_applications.csv
echo "10,Stealth Magic " >> gem_applications.csv
Wir befinden uns nun im Verzeichnis gemstone_data. Lassen Sie uns einen Moment Zeit nehmen, um den Inhalt dieses Verzeichnisses zu überprüfen:
ls
Wenn Sie sich durch das Verzeichnis navigieren, werden Sie diese beiden Dateien sehen, wobei jede einer bestimmten Aspekt der Edelstein-Daten gewidmet ist. gem_properties.csv
geht auf die physikalischen Eigenschaften von Edelsteinen ein, während gem_applications.csv
Einblicke in ihre verschiedenen magischen Anwendungen gibt.
Um tiefere Einblicke in unsere Datenmenge zu erhalten, schauen wir uns die ersten Zeilen einer dieser Dateien an:
head -n 5 gem_properties.csv
Das Ergebnis sollte wie folgt aussehen:
gem_id,gem_name,color,hardness,density,refractive_index
1,Ruby,Red,9.0,4.0,1.77
2,Emerald,Green,8.0,3.1,1.58
3,Sapphire,Blue,9.0,4.0,1.76
4,Diamond,Colorless,10.0,3.5,2.42
Dieser Befehl hat die ersten fünf Zeilen der Datei gem_properties.csv
angezeigt und Ihnen einen Einblick in ihre Struktur und Inhalt gegeben.