Otimização do Fluxo de Dados Intergaláctico

HadoopBeginner
Pratique Agora

Introdução

No ano de 2375, a Federação Galáctica estabeleceu uma rede de portos interestelares para facilitar o transporte de bens e recursos através da vasta extensão da galáxia Via Láctea. Você é um navegador de voo estacionado no Porto Espacial de Andrômeda, encarregado de otimizar a importação e exportação de carga intergaláctica usando as capacidades avançadas de processamento de dados do ecossistema Hadoop.

Sua missão é agilizar o fluxo de dados entre o porto espacial e a Rede Comercial Galáctica, garantindo o manuseio eficiente de manifestos, registros de inventário e informações de logística. Ao dominar a arte de importar e exportar dados com Hadoop, você contribuirá para a operação tranquila deste centro interestelar, permitindo a troca contínua de bens e promovendo o crescimento econômico em toda a galáxia.

Importando Dados de um Sistema Estelar Remoto

Nesta etapa, você aprenderá como importar dados de um sistema estelar remoto para o Hadoop Distributed File System (HDFS). Esses dados representam o manifesto de carga para um carregamento recebido da Nebulosa de Órion.

Primeiro, certifique-se de estar logado como o usuário hadoop executando o seguinte comando no terminal:

su - hadoop

Em seguida, navegue até o diretório /home/hadoop e crie uma nova pasta chamada galactic_imports:

cd /home/hadoop
mkdir galactic_imports

Em seguida, use o comando hdfs para criar um diretório no HDFS chamado /home/hadoop/imports:

hdfs dfs -mkdir -p /home/hadoop/imports

Baixe o arquivo de manifesto de carga da Nebulosa de Órion usando o comando wget:

wget http://localhost:8080/orion_manifest.csv -P /home/hadoop/galactic_imports/

Este comando salvará o arquivo orion_manifest.csv no diretório galactic_imports. Na prática, você pode substituir http://localhost:8080 pela URL real, por exemplo, https://example.com.

Importe o manifesto de carga para o HDFS usando o comando hadoop fs:

hadoop fs -put /home/hadoop/galactic_imports/orion_manifest.csv /home/hadoop/imports/

Este comando copiará o arquivo orion_manifest.csv do sistema de arquivos local para o diretório /home/hadoop/imports no HDFS.

Exportando Dados para a Rede Comercial Galáctica

Nesta etapa, você aprenderá como exportar dados processados do Hadoop para a Rede Comercial Galáctica, garantindo que as informações de carga sejam acessíveis a todos os sistemas membros.

Primeiro, crie um novo diretório no HDFS chamado /home/hadoop/exports:

hdfs dfs -mkdir /home/hadoop/exports

Agora, inicie o shell do Hive executando o seguinte comando:

hive

Execute uma consulta Hive para processar o arquivo orion_manifest.csv e gerar um relatório de resumo:

CREATE TABLE orion_manifest(
  item STRING,
  quantity INT,
  origin STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
LOAD DATA INPATH '/home/hadoop/imports/orion_manifest.csv' INTO TABLE orion_manifest;
INSERT OVERWRITE DIRECTORY '/home/hadoop/exports/orion_summary'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
SELECT origin, SUM(quantity) AS total_quantity
FROM orion_manifest
GROUP BY origin;
EXIT;

Esta consulta Hive criará uma tabela a partir do arquivo orion_manifest.csv, processará os dados e armazenará o relatório de resumo no diretório /home/hadoop/exports/orion_summary no HDFS.

Exporte o relatório de resumo do HDFS para o sistema de arquivos local:

mkdir /home/hadoop/galactic_exports
hadoop fs -get /home/hadoop/exports/orion_summary/* /home/hadoop/galactic_exports/

Este comando criará um diretório galactic_exports no diretório /home/hadoop e copiará os arquivos do diretório /home/hadoop/exports/orion_summary no HDFS para o diretório galactic_exports.

Finalmente, carregue o relatório de resumo para a Rede Comercial Galáctica usando o comando scp:

scp /home/hadoop/galactic_exports/* localhost:/home/hadoop/incoming/reports/

Este comando copiará com segurança os arquivos do diretório galactic_exports para o diretório /incoming/reports/ no servidor localhost, tornando o relatório de resumo disponível para todos os sistemas membros da Rede Comercial Galáctica. Na prática, você pode substituir localhost por um servidor real, por exemplo, trade.network.com.

Resumo

Neste laboratório, você aprendeu como importar e exportar dados no ecossistema Hadoop, uma habilidade crucial para gerenciar o fluxo de informações na Federação Galáctica interestelar. Ao dominar essas técnicas, você contribuiu para a operação eficiente do Porto Espacial de Andrômeda, facilitando a troca tranquila de bens e recursos em toda a galáxia.

Através de exercícios práticos, você importou manifestos de carga de sistemas estelares remotos para o HDFS, processou os dados usando consultas Hive e exportou os relatórios resumidos para a Rede Comercial Galáctica. Essa experiência prática o equipou com o conhecimento e as habilidades necessárias para prosperar como um navegador de voo, garantindo a integração perfeita do porto espacial com a intrincada teia do comércio intergaláctico.

No geral, este laboratório não apenas transmitiu proficiência técnica, mas também incutiu um senso de admiração e apreço pelas maravilhas da logística interestelar. A capacidade de aproveitar o poder do Hadoop no gerenciamento e processamento de grandes quantidades de dados, sem dúvida, o impulsionará a novos patamares em sua carreira, contribuindo para o crescimento e a prosperidade contínuos da Federação Galáctica.