Исследование датасета с gemaми
На этом этапе мы познакомимся с датасетом с gemaми и его структурой,奠定基础 для последующего анализа.
Во - первых, убедитесь, что вы вошли под пользователем hadoop
, выполнив следующую команду в терминале:
su - hadoop
Теперь давайте начнем с создания примера. Скопируйте следующую командную строку в терминал, чтобы создать наш примерный файл.
mkdir -p hadoop/gemstone_data
cd hadoop/gemstone_data
echo "gem_id,gem_name,color,hardness,density,refractive_index" > gem_properties.csv
echo "1,Ruby ,Red ,9.0,4.0,1.77" >> gem_properties.csv
echo "2,Emerald,Green ,8.0,3.1,1.58" >> gem_properties.csv
echo "3,Sapphire,Blue ,9.0,4.0,1.76" >> gem_properties.csv
echo "4,Diamond,Colorless,10.0,3.5,2.42" >> gem_properties.csv
echo "5,Amethyst,Purple ,7.0,2.6,1.54" >> gem_properties.csv
echo "6,Topaz ,Yellow ,8.0,3.5,1.63" >> gem_properties.csv
echo "7,Pearl ,White ,2.5,2.7,1.53" >> gem_properties.csv
echo "8,Agate ,Multi ,7.0,2.6,1.53" >> gem_properties.csv
echo "9,Rose ,Pink ,7.0,2.7,1.54" >> gem_properties.csv
echo "10,CatsEye,Green ,6.5,3.2,1.54" >> gem_properties.csv
echo "gem_id,application" > gem_applications.csv
echo "1,Fire Magic " >> gem_applications.csv
echo "2,Earth Magic " >> gem_applications.csv
echo "3,Water Magic " >> gem_applications.csv
echo "4,Enhancement Magic" >> gem_applications.csv
echo "5,Psychic Magic " >> gem_applications.csv
echo "6,Lightning Magic " >> gem_applications.csv
echo "7,Illusion Magic " >> gem_applications.csv
echo "8,Strength Magic " >> gem_applications.csv
echo "9,Love Magic " >> gem_applications.csv
echo "10,Stealth Magic " >> gem_applications.csv
Теперь мы уже в директории gemstone_data, давайте потратьте несколько минут на просмотр содержимого этой директории:
ls
При навигации по директории вы увидите эти два файла, каждый из которых посвящен определенному аспекту данных о gemaх. gem_properties.csv
исследует физические характеристики gema, а gem_applications.csv
предоставляет информацию о их различных магических用途.
Для более глубокого понимания нашего датасета давайте посмотрим на первые несколько строк одного из этих файлов:
head -n 5 gem_properties.csv
Результат должен быть следующим:
gem_id,gem_name,color,hardness,density,refractive_index
1,Ruby,Red,9.0,4.0,1.77
2,Emerald,Green,8.0,3.1,1.58
3,Sapphire,Blue,9.0,4.0,1.76
4,Diamond,Colorless,10.0,3.5,2.42
Эта команда показала первые пять строк файла gem_properties.csv
, даруя вам представление о его структуре и содержимом.