Introdução
No coração do Deserto do Saara, uma equipe de arqueólogos se deparou com uma antiga pirâmide egípcia, escondida sob as areias douradas por milênios. Rumores de um explorador amaldiçoado que se aventurou nas profundezas da tumba se espalharam como fogo, inflamando sua curiosidade. Como um analista de dados experiente, você foi encarregado de desvendar a verdade por trás da lenda, usando o poder do Hadoop e do Hive.
Sua missão é dupla: primeiro, processar um vasto conjunto de dados de registros arqueológicos, descobrindo pistas sobre a identidade e o destino do explorador amaldiçoado. Segundo, analisar o inventário de artefatos recuperados da tumba, lançando luz sobre a enigmática civilização que construiu a pirâmide.
Explorando os Registros Arqueológicos
Nesta etapa, mergulharemos nos registros arqueológicos usando o Hive e a cláusula where para filtrar e analisar os dados.
- Inicie o ambiente Hadoop executando o seguinte comando em seu terminal:
su - hadoop
- Inicie o shell do Hive executando o seguinte comando:
hive
- Crie uma nova tabela Hive chamada
archaeological_recordspara armazenar o conjunto de dados:
CREATE TABLE archaeological_records (
record_id INT,
site_name STRING,
discovery_date DATE,
description STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
- Carregue os dados na tabela
archaeological_recordsa partir do arquivo/home/hadoop/records.csv:
LOAD DATA LOCAL INPATH '/home/hadoop/records.csv' OVERWRITE INTO TABLE archaeological_records;
- Use a cláusula
wherepara filtrar os registros relacionados ao sítio do explorador amaldiçoado:
SELECT *
FROM archaeological_records
WHERE site_name = 'Pyramid of Khufu';
Esta consulta exibirá todos os registros associados ao sítio "Pyramid of Khufu", ajudando você a restringir sua busca por pistas.
Analisando o Inventário de Artefatos
Agora que restringimos os registros, vamos analisar o inventário de artefatos recuperados do sítio do explorador amaldiçoado.
- Crie uma nova tabela Hive chamada
artifact_inventorypara armazenar os dados dos artefatos:
CREATE TABLE artifact_inventory (
artifact_id INT,
artifact_name STRING,
material STRING,
site_name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
- Carregue os dados na tabela
artifact_inventorya partir do arquivo/home/hadoop/artifacts.csv:
LOAD DATA LOCAL INPATH '/home/hadoop/artifacts.csv' OVERWRITE INTO TABLE artifact_inventory;
- Use a cláusula
wherepara filtrar os artefatos encontrados no sítio "Pyramid of Khufu":
SELECT artifact_name, material
FROM artifact_inventory
WHERE site_name = 'Pyramid of Khufu';
Esta consulta exibirá os nomes e materiais dos artefatos encontrados no sítio do explorador amaldiçoado, fornecendo informações valiosas sobre a civilização que construiu a pirâmide.
Desvendando a Identidade do Explorador Amaldiçoado
Com os registros arqueológicos e o inventário de artefatos em suas mãos, é hora de desvendar o mistério da identidade do explorador amaldiçoado.
- Junte as tabelas
archaeological_recordseartifact_inventoryna colunasite_name:
CREATE TABLE result_1
AS
SELECT ar.record_id, ar.description, ai.artifact_name
FROM archaeological_records ar
JOIN artifact_inventory ai
ON ar.site_name = ai.site_name
WHERE ar.site_name = 'Pyramid of Khufu';
SELECT * FROM result_1;
Esta consulta combinará os registros arqueológicos e as informações dos artefatos para o sítio "Pyramid of Khufu", potencialmente revelando pistas sobre a identidade e o destino do explorador amaldiçoado.
- Use a cláusula
wherepara filtrar os dados unidos com base em palavras-chave ou padrões relacionados ao explorador amaldiçoado:
CREATE TABLE result_2
AS
SELECT ar.record_id, ar.description, ai.artifact_name
FROM archaeological_records ar
JOIN artifact_inventory ai
ON ar.site_name = ai.site_name
WHERE ar.site_name = 'Pyramid of Khufu'
AND ar.description LIKE '%cursed explorer%';
SELECT * FROM result_2;
Esta consulta exibirá apenas os registros e artefatos que mencionam o "cursed explorer" (explorador amaldiçoado), ajudando você a montar o quebra-cabeça.
Resumo
Neste laboratório, exploramos o poder do Hadoop Hive e da cláusula where para desvendar o mistério de um explorador amaldiçoado que se aventurou em uma antiga pirâmide egípcia. Ao analisar registros arqueológicos e inventários de artefatos, fomos capazes de filtrar e extrair dados relevantes, descobrindo, em última análise, pistas sobre a identidade e o destino do explorador.
Através desta experiência prática, obtive uma compreensão mais profunda das capacidades de processamento de dados do Hive e da importância da filtragem de dados na descoberta de insights a partir de grandes conjuntos de dados. O cenário envolvente do laboratório e a orientação passo a passo tornaram o processo de aprendizagem agradável e gratificante. Espero aplicar essas habilidades em projetos futuros de análise de dados, desvendando mais mistérios escondidos em vastos tesouros de dados.



