Desvendando o Destino de Exploradores com Hadoop

HadoopBeginner
Pratique Agora

Introdução

No coração do Deserto do Saara, uma equipe de arqueólogos se deparou com uma antiga pirâmide egípcia, escondida sob as areias douradas por milênios. Rumores de um explorador amaldiçoado que se aventurou nas profundezas da tumba se espalharam como fogo, inflamando sua curiosidade. Como um analista de dados experiente, você foi encarregado de desvendar a verdade por trás da lenda, usando o poder do Hadoop e do Hive.

Sua missão é dupla: primeiro, processar um vasto conjunto de dados de registros arqueológicos, descobrindo pistas sobre a identidade e o destino do explorador amaldiçoado. Segundo, analisar o inventário de artefatos recuperados da tumba, lançando luz sobre a enigmática civilização que construiu a pirâmide.

Explorando os Registros Arqueológicos

Nesta etapa, mergulharemos nos registros arqueológicos usando o Hive e a cláusula where para filtrar e analisar os dados.

  1. Inicie o ambiente Hadoop executando o seguinte comando em seu terminal:
su - hadoop
  1. Inicie o shell do Hive executando o seguinte comando:
hive
  1. Crie uma nova tabela Hive chamada archaeological_records para armazenar o conjunto de dados:
CREATE TABLE archaeological_records (
    record_id INT,
    site_name STRING,
    discovery_date DATE,
    description STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
  1. Carregue os dados na tabela archaeological_records a partir do arquivo /home/hadoop/records.csv:
LOAD DATA LOCAL INPATH '/home/hadoop/records.csv' OVERWRITE INTO TABLE archaeological_records;
  1. Use a cláusula where para filtrar os registros relacionados ao sítio do explorador amaldiçoado:
SELECT *
FROM archaeological_records
WHERE site_name = 'Pyramid of Khufu';

Esta consulta exibirá todos os registros associados ao sítio "Pyramid of Khufu", ajudando você a restringir sua busca por pistas.

Analisando o Inventário de Artefatos

Agora que restringimos os registros, vamos analisar o inventário de artefatos recuperados do sítio do explorador amaldiçoado.

  1. Crie uma nova tabela Hive chamada artifact_inventory para armazenar os dados dos artefatos:
CREATE TABLE artifact_inventory (
    artifact_id INT,
    artifact_name STRING,
    material STRING,
    site_name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
  1. Carregue os dados na tabela artifact_inventory a partir do arquivo /home/hadoop/artifacts.csv:
LOAD DATA LOCAL INPATH '/home/hadoop/artifacts.csv' OVERWRITE INTO TABLE artifact_inventory;
  1. Use a cláusula where para filtrar os artefatos encontrados no sítio "Pyramid of Khufu":
SELECT artifact_name, material
FROM artifact_inventory
WHERE site_name = 'Pyramid of Khufu';

Esta consulta exibirá os nomes e materiais dos artefatos encontrados no sítio do explorador amaldiçoado, fornecendo informações valiosas sobre a civilização que construiu a pirâmide.

Desvendando a Identidade do Explorador Amaldiçoado

Com os registros arqueológicos e o inventário de artefatos em suas mãos, é hora de desvendar o mistério da identidade do explorador amaldiçoado.

  1. Junte as tabelas archaeological_records e artifact_inventory na coluna site_name:
CREATE TABLE result_1
AS
SELECT ar.record_id, ar.description, ai.artifact_name
FROM archaeological_records ar
JOIN artifact_inventory ai
ON ar.site_name = ai.site_name
WHERE ar.site_name = 'Pyramid of Khufu';

SELECT * FROM result_1;

Esta consulta combinará os registros arqueológicos e as informações dos artefatos para o sítio "Pyramid of Khufu", potencialmente revelando pistas sobre a identidade e o destino do explorador amaldiçoado.

  1. Use a cláusula where para filtrar os dados unidos com base em palavras-chave ou padrões relacionados ao explorador amaldiçoado:
CREATE TABLE result_2
AS
SELECT ar.record_id, ar.description, ai.artifact_name
FROM archaeological_records ar
JOIN artifact_inventory ai
ON ar.site_name = ai.site_name
WHERE ar.site_name = 'Pyramid of Khufu'
AND ar.description LIKE '%cursed explorer%';

SELECT * FROM result_2;

Esta consulta exibirá apenas os registros e artefatos que mencionam o "cursed explorer" (explorador amaldiçoado), ajudando você a montar o quebra-cabeça.

Resumo

Neste laboratório, exploramos o poder do Hadoop Hive e da cláusula where para desvendar o mistério de um explorador amaldiçoado que se aventurou em uma antiga pirâmide egípcia. Ao analisar registros arqueológicos e inventários de artefatos, fomos capazes de filtrar e extrair dados relevantes, descobrindo, em última análise, pistas sobre a identidade e o destino do explorador.

Através desta experiência prática, obtive uma compreensão mais profunda das capacidades de processamento de dados do Hive e da importância da filtragem de dados na descoberta de insights a partir de grandes conjuntos de dados. O cenário envolvente do laboratório e a orientação passo a passo tornaram o processo de aprendizagem agradável e gratificante. Espero aplicar essas habilidades em projetos futuros de análise de dados, desvendando mais mistérios escondidos em vastos tesouros de dados.