Introdução
Numa galáxia distante, uma guerra intergaláctica tem durado séculos entre o Império Galáctico e a Aliança Rebelde. Como um renomado explorador espacial, você foi recrutado pela Aliança Rebelde para reunir informações cruciais sobre o desenvolvimento da mais recente arma do Império. Sua missão é infiltrar o repositório secreto de dados do Império e analisar seus registros usando o poderoso ecossistema Hadoop.
O Império Galáctico tem coletado vastas quantidades de dados de suas conquistas planetárias, incluindo informações sobre recursos, populações e operações militares. Esses dados são armazenados em seu cluster Hadoop fortemente guardado, ao qual você deve acessar para descobrir os planos e as potenciais fraquezas do Império.
Seu objetivo é usar o Hive, uma ferramenta de data warehousing dentro do ecossistema Hadoop, para analisar os dados do Império e identificar padrões que possam auxiliar a Aliança Rebelde em sua luta contra o regime opressor. Especificamente, você aprenderá como usar a cláusula LIMIT no Hive para analisar e extrair informações relevantes de conjuntos de dados massivos de forma eficiente.
Acessando o Repositório de Dados do Império
Nesta etapa, você estabelecerá uma conexão segura com o cluster Hadoop do Império e explorará os conjuntos de dados disponíveis.
- Inicie seu terminal seguro e autentique-se com as credenciais da Aliança Rebelde.
- Use o comando
su - hadooppara mudar para o usuáriohadoop(nenhuma senha é necessária).
su - hadoop
- Navegue até o diretório
/home/hadoop, que será seu diretório de trabalho padrão.
cd /home/hadoop
- Liste o conteúdo do diretório para se familiarizar com os arquivos e diretórios disponíveis.
ls
Você deve ver um diretório chamado empire_data. Este diretório contém os registros de dados do Império, que você analisará nas etapas seguintes.
- Coloque
empire_datano hdfs para uso pelohive.
hadoop fs -mkdir -p /home/hadoop
hadoop fs -put /home/hadoop/empire_data /home/hadoop
Explorando os Registros de Recursos do Império
Nesta etapa, você analisará os registros de recursos do Império usando a cláusula LIMIT no Hive.
- Inicie o shell do Hive executando o seguinte comando:
hive
- Crie um novo banco de dados chamado
rebel_intelligencepara armazenar sua análise.
CREATE DATABASE rebel_intelligence;
- Use o banco de dados
rebel_intelligence.
USE rebel_intelligence;
- Crie uma tabela externa chamada
resourcesque aponte para os dados de recursos do Império armazenados no diretório/home/hadoop/empire_data/resources.
CREATE EXTERNAL TABLE resources (
planet STRING,
resource STRING,
quantity BIGINT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/home/hadoop/empire_data/resources';
- Visualize os primeiros 10 registros da tabela
resourcesusando a cláusulaLIMIT.
SELECT * FROM resources LIMIT 10;
Este comando exibirá as primeiras 10 linhas da tabela resources, permitindo que você entenda a estrutura e o conteúdo dos dados.
- Analise a distribuição de recursos entre os planetas executando uma consulta com a cláusula
LIMIT.
SELECT planet, SUM(quantity) AS total_resources
FROM resources
GROUP BY planet
ORDER BY total_resources DESC
LIMIT 5;
Esta consulta mostrará os 5 principais planetas com o maior total de recursos, fornecendo informações valiosas sobre os territórios ricos em recursos do Império.
Analisando as Operações Militares do Império
Nesta etapa, você investigará as operações militares do Império consultando seus registros de missão usando a cláusula LIMIT.
- Crie uma tabela externa chamada
missionsque aponte para os dados de missão do Império armazenados no diretório/home/hadoop/empire_data/missions.
CREATE EXTERNAL TABLE missions (
mission_id STRING,
planet STRING,
operation STRING,
start_date STRING,
end_date STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/home/hadoop/empire_data/missions';
- Visualize os primeiros 5 registros da tabela
missionsusando a cláusulaLIMIT.
SELECT * FROM missions LIMIT 5;
- Analise as operações militares mais recentes executando uma consulta com a cláusula
LIMITe ordenando pela colunaend_date.
SELECT planet, operation, end_date
FROM missions
ORDER BY end_date DESC
LIMIT 10;
Esta consulta mostrará as 10 operações militares mais recentes conduzidas pelo Império, fornecendo informações valiosas sobre suas últimas atividades.
- Identifique os planetas com a maior concentração de operações militares executando uma consulta com a cláusula
LIMITe agrupando pela colunaplanet.
SELECT planet, COUNT(*) AS operation_count
FROM missions
GROUP BY planet
ORDER BY operation_count DESC
LIMIT 3;
Esta consulta revelará os 3 principais planetas com o maior número de operações militares, indicando potenciais alvos ou locais estratégicos para a Aliança Rebelde.
Desvendando as Medidas de Controle Populacional do Império
Nesta etapa, você desvendará as medidas de controle populacional do Império analisando seus registros de censo usando a cláusula LIMIT.
- Crie uma tabela externa chamada
censusque aponte para os dados de censo do Império armazenados no diretório/home/hadoop/empire_data/census.
CREATE EXTERNAL TABLE census (
planet STRING,
species STRING,
population BIGINT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/home/hadoop/empire_data/census';
- Visualize os primeiros 10 registros da tabela
censususando a cláusulaLIMIT.
SELECT * FROM census LIMIT 10;
- Analise os planetas mais populosos executando uma consulta com a cláusula
LIMITe ordenando pela colunapopulationem ordem decrescente.
SELECT planet, SUM(population) AS total_population
FROM census
GROUP BY planet
ORDER BY total_population DESC
LIMIT 5;
Esta consulta mostrará os 5 planetas mais populosos do Império, fornecendo informações sobre possíveis locais para recrutar novos rebeldes ou identificar áreas com populações civis significativas.
- Identifique as espécies com as maiores populações em todo o Império executando uma consulta com a cláusula
LIMITe agrupando pela colunaspecies.
SELECT species, SUM(population) AS total_population
FROM census
GROUP BY species
ORDER BY total_population DESC
LIMIT 3;
Esta consulta revelará as 3 principais espécies com as maiores populações no Império, o que pode ser uma informação valiosa para entender a diversidade e o potencial apoio entre diferentes espécies para a Aliança Rebelde.
Resumo
Neste laboratório, você aprendeu a usar a cláusula LIMIT no Hive, uma ferramenta de data warehousing dentro do ecossistema Hadoop, para analisar e extrair informações relevantes de forma eficiente dos vastos repositórios de dados do Império Galáctico. Ao explorar registros de recursos, operações militares e dados de censo, você obteve informações valiosas sobre os pontos fortes, fracos e potenciais vulnerabilidades do Império.
Por meio de exercícios práticos, você praticou a criação de tabelas externas, a consulta de dados usando a cláusula LIMIT e a filtragem e classificação de resultados com base em critérios específicos. Essa experiência prática não apenas fortaleceu suas habilidades no Hive, mas também proporcionou uma compreensão mais profunda de como extrair inteligência acionável de grandes conjuntos de dados.
O cenário imersivo do laboratório, ambientado em uma guerra galáctica, adicionou um contexto envolvente e motivador à sua experiência de aprendizado. Ao assumir o papel de um explorador espacial trabalhando para a Aliança Rebelde, você sentiu um senso de propósito e urgência em desvendar os segredos do Império, tornando o processo de aprendizado mais agradável e significativo.
No geral, este laboratório equipou você com as habilidades necessárias para aproveitar o poder do Hadoop e do Hive na análise de dados, preparando-o para desafios futuros no reino de big data e permitindo que você contribua para a luta da Aliança Rebelde contra o opressor Império Galáctico.



