Hadoop を使った宇宙資源最適化

HadoopHadoopBeginner
今すぐ練習

💡 このチュートリアルは英語版からAIによって翻訳されています。原文を確認するには、 ここをクリックしてください

はじめに

銀河間貿易駅へようこそ。ここは、銀河を超えた商人や旅行者が商品とサービスを交換するにぎやかな拠点です。スキルの高い宇宙駅メカニックとして、あなたの専門知識は、駅のシステムを円滑に動かすために高い需要があります。今日は、使用パターンに基づいてデータをソートすることで、駅の資源配分を分析し最適化する任務が与えられました。

あなたの目標は、大規模なデータセットを効率的に処理しソートできる、Hadoop ベースのソリューションを開発することです。これにより、駅の資源が効率的に割り当てられ、多様な訪問者の絶え間ないニーズに応えることができます。


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL hadoop(("Hadoop")) -.-> hadoop/HadoopHDFSGroup(["Hadoop HDFS"]) hadoop(("Hadoop")) -.-> hadoop/HadoopHiveGroup(["Hadoop Hive"]) hadoop/HadoopHDFSGroup -.-> hadoop/fs_mkdir("FS Shell mkdir") hadoop/HadoopHiveGroup -.-> hadoop/manage_db("Managing Database") hadoop/HadoopHiveGroup -.-> hadoop/create_tables("Creating Tables") hadoop/HadoopHiveGroup -.-> hadoop/load_insert_data("Loading and Inserting Data") hadoop/HadoopHiveGroup -.-> hadoop/basic_hiveql("Basic HiveQL Queries") hadoop/HadoopHiveGroup -.-> hadoop/sort_by("sort by Usage") hadoop/HadoopHiveGroup -.-> hadoop/storage_formats("Choosing Storage Formats") subgraph Lab Skills hadoop/fs_mkdir -.-> lab-288998{{"Hadoop を使った宇宙資源最適化"}} hadoop/manage_db -.-> lab-288998{{"Hadoop を使った宇宙資源最適化"}} hadoop/create_tables -.-> lab-288998{{"Hadoop を使った宇宙資源最適化"}} hadoop/load_insert_data -.-> lab-288998{{"Hadoop を使った宇宙資源最適化"}} hadoop/basic_hiveql -.-> lab-288998{{"Hadoop を使った宇宙資源最適化"}} hadoop/sort_by -.-> lab-288998{{"Hadoop を使った宇宙資源最適化"}} hadoop/storage_formats -.-> lab-288998{{"Hadoop を使った宇宙資源最適化"}} end

環境をセットアップする

このステップでは、Hadoop プロジェクトの環境をセットアップし、サンプル データセットを作成します。

  1. ターミナルを開き、次のコマンドを実行して hadoop ユーザーに切り替えます。
su - hadoop
  1. /home/hadoop ディレクトリに sorting_lab という新しいディレクトリを作成します。
mkdir /home/hadoop/sorting_lab
  1. sorting_lab ディレクトリに移動します。
cd /home/hadoop/sorting_lab
  1. 次のコマンドを実行してサンプル データセットを作成します。
echo -e "apple\t5\nbanana\t3\norange\t7\ngrape\t2\nstrawberry\t6" > fruit_sales.txt

このコマンドは、次の内容を持つ fruit_sales.txt というファイルを作成します。

apple   5
banana  3
orange  7
grape   2
strawberry  6

ファイルの各行は、タブ文字で区切られた果物とその販売数を表しています。

データをHiveに読み込む

このステップでは、Hiveテーブルを作成し、サンプル データセットを読み込みます。

  1. 次のコマンドを実行してHiveシェルを起動します。
hive
  1. sorting_db という新しいデータベースを作成します。
CREATE DATABASE sorting_db;
  1. sorting_db データベースを使用します。
USE sorting_db;
  1. fruit(文字列)と count(整数)の2つの列を持つ fruit_sales という新しいテーブルを作成します。
CREATE TABLE fruit_sales (fruit STRING, count INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
  1. fruit_sales.txt ファイルを fruit_sales テーブルに読み込みます。
LOAD DATA LOCAL INPATH '/home/hadoop/sorting_lab/fruit_sales.txt' OVERWRITE INTO TABLE fruit_sales;
  1. SELECT クエリを実行して、データが正しく読み込まれたことを確認します。
SELECT * FROM fruit_sales;

これは次のように出力されるはずです。

apple   5
banana  3
orange  7
grape   2
strawberry  6
  1. 次のコマンドを実行してHiveシェルを終了します。
quit;

使用量によるデータのソート

このステップでは、Hiveの ORDER BY 句を使用して、fruit_sales テーブルを count 列で降順にソートします。

  1. 次のコマンドを実行してHiveシェルを起動します。
hive
  1. sorting_db データベースを使用します。
USE sorting_db;
  1. 次のクエリを実行して、fruit_sales テーブルを count 列で降順にソートします。
CREATE TABLE result AS
SELECT * FROM fruit_sales ORDER BY count DESC;
SELECT * FROM result;

これは次のように出力されるはずです。

orange  7
strawberry  6
apple   5
banana  3
grape   2
  1. 次のコマンドを実行してHiveシェルを終了します。
quit;

まとめ

この実験では、Hadoop Hiveの「使用量によるソート」機能を調べました。まず、環境をセットアップしてサンプル データセットを作成しました。次に、データをHiveテーブルに読み込み、ORDER BY 句を使用して特定の列でテーブルをソートする方法を学びました。

この実験では、Hiveを使った実践的な経験を提供し、使用パターンに基づいてデータをソートする方法を示しました。このスキルを習得することで、銀河間貿易駅など、さまざまなシナリオでの資源配分を効率的に分析し最適化することができます。

実験全体を通して、各ステップの成功裏の完了を確認するためにチェッカーも使用しました。これにより、将来的に同様のチャレンジに取り組む際に必要な知識と実践的な経験を身につけることができます。