Hadoop を使って明かされた探検家の運命

HadoopBeginner
オンラインで実践に進む

はじめに

サハラ砂漠の真ん中で、考古学者チームが何千年もの間金色の砂の下に隠されていた古代エジプトのピラミッドを発見しました。墓の奥深くに入り込んだ呪われた探検家の噂が野火のように広がり、あなたの好奇心を燃やします。熟練したデータ アナリストとして、あなたは Hadoop と Hive の力を使って、伝説の裏側にある真実を明らかにすることが課されています。

あなたの使命は二つあります。第一に、膨大な考古学的記録のデータセットを処理し、呪われた探検家の身元と運命に関する手がかりを明らかにすること。第二に、墓から回収された遺物のインベントリを分析し、ピラミッドを建設した謎めいた文明を明らかにすること。

考古学的記録を探索する

このステップでは、Hive と where 句を使って考古学的記録に突入し、データをフィルタリングして分析します。

  1. ターミナルで以下のコマンドを実行して Hadoop 環境を起動します。
su - hadoop
  1. 以下のコマンドを実行して Hive シェルを起動します。
hive
  1. データセットを格納するための新しい Hive テーブル archaeological_records を作成します。
CREATE TABLE archaeological_records (
    record_id INT,
    site_name STRING,
    discovery_date DATE,
    description STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
  1. /home/hadoop/records.csv ファイルからデータを archaeological_records テーブルに読み込みます。
LOAD DATA LOCAL INPATH '/home/hadoop/records.csv' OVERWRITE INTO TABLE archaeological_records;
  1. where 句を使って呪われた探検家の遺跡に関連する記録をフィルタリングします。
SELECT *
FROM archaeological_records
WHERE site_name = 'Pyramid of Khufu';

このクエリは、「クフーフのピラミッド」の遺跡に関連するすべての記録を表示し、手がかりの検索を絞り込むのに役立ちます。

遺物インベントリを分析する

これで記録を絞り込めたので、呪われた探検家の遺跡から回収された遺物のインベントリを分析しましょう。

  1. 遺物データを格納するための新しい Hive テーブル artifact_inventory を作成します。
CREATE TABLE artifact_inventory (
    artifact_id INT,
    artifact_name STRING,
    material STRING,
    site_name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
  1. /home/hadoop/artifacts.csv ファイルからデータを artifact_inventory テーブルに読み込みます。
LOAD DATA LOCAL INPATH '/home/hadoop/artifacts.csv' OVERWRITE INTO TABLE artifact_inventory;
  1. where 句を使って「クフーフのピラミッド」の遺跡で見つかった遺物をフィルタリングします。
SELECT artifact_name, material
FROM artifact_inventory
WHERE site_name = 'Pyramid of Khufu';

このクエリは、呪われた探検家の遺跡で見つかった遺物の名前と素材を表示し、ピラミッドを建設した文明に関する貴重な洞察を提供します。

呪われた探検家の正体を明らかにする

考古学的記録と遺物インベントリがすぐそばにあるので、呪われた探検家の正体の謎を解き明かす時が来ました。

  1. site_name 列を基に archaeological_records テーブルと artifact_inventory テーブルを結合します。
CREATE TABLE result_1
AS
SELECT ar.record_id, ar.description, ai.artifact_name
FROM archaeological_records ar
JOIN artifact_inventory ai
ON ar.site_name = ai.site_name
WHERE ar.site_name = 'Pyramid of Khufu';

SELECT * FROM result_1;

このクエリは、「クフーフのピラミッド」の遺跡に関する考古学的記録と遺物情報を結合し、呪われた探検家の正体と運命に関する手がかりを明らかにする可能性があります。

  1. where 句を使って、呪われた探検家に関連するキーワードまたはパターンに基づいて結合データをフィルタリングします。
CREATE TABLE result_2
AS
SELECT ar.record_id, ar.description, ai.artifact_name
FROM archaeological_records ar
JOIN artifact_inventory ai
ON ar.site_name = ai.site_name
WHERE ar.site_name = 'Pyramid of Khufu'
AND ar.description LIKE '%cursed explorer%';

SELECT * FROM result_2;

このクエリは、「呪われた探検家」と言及している記録と遺物のみを表示し、パズルを組み立てるのに役立ちます。

まとめ

この実験では、Hadoop Hive と where 句の力を使って、古代エジプトのピラミッドに入り込んだ呪われた探検家の謎を解き明かしました。考古学的記録と遺物インベントリを分析することで、関連するデータをフィルタリングして抽出し、最終的に探検家の正体と運命に関する手がかりを明らかにすることができました。

この実践的な経験を通じて、Hive のデータ処理能力と、大規模なデータセットから洞察を明らかにする際のデータフィルタリングの重要性を深く理解することができました。実験の魅力的なシナリオと段階的なガイダンスにより、学習プロセスは楽しく充実感がありました。これらのスキルを将来のデータ分析プロジェクトに応用し、膨大なデータの中に隠されたさらに多くの謎を解き明かすことを楽しみにしています。