Criação Mística de Tabelas no Hadoop

HadoopBeginner
Pratique Agora

Introdução

Bem-vindo à mística Ilha Banister, um lugar onde o extraordinário e o mundano se entrelaçam. Aqui reside o enigmático Sorcerer Hadrian, um mestre das artes arcanas. Seu último empreendimento é desvendar os segredos dos antigos pergaminhos Hadoop, que detêm o poder de desvendar os mistérios da organização e manipulação de dados.

Sua missão, caso a aceite, é auxiliar o Sorcerer Hadrian na criação de tabelas no reino do Hadoop Hive. Esta poderosa ferramenta permite estruturar e armazenar grandes quantidades de dados, possibilitando extrair insights valiosos e descobrir padrões ocultos. Ao longo deste laboratório, você aprenderá as complexidades da criação de tabelas, estabelecendo a base para uma compreensão mais profunda das capacidades do Hadoop.

Nesta etapa, prepararemos o ambiente para suas próximas tarefas, navegando para o diretório home do usuário Hadoop.

Primeiro, abra uma janela de terminal e mude para o usuário hadoop executando o seguinte comando:

su - hadoop

Você não será solicitado a inserir uma senha. Após mudar com sucesso para o usuário hadoop, seu diretório de trabalho atual deve ser /home/hadoop.

Criando um Banco de Dados

Antes de podermos criar tabelas, precisamos ter um banco de dados para armazená-las. Nesta etapa, criaremos um novo banco de dados chamado magic_realm.

No terminal, execute o seguinte comando para iniciar o Hive CLI:

hive

Após o Hive CLI estar em execução, execute o seguinte comando para criar o banco de dados magic_realm:

CREATE DATABASE magic_realm;

Você deve ver uma mensagem de sucesso indicando que o banco de dados foi criado.

Criando uma Tabela

Agora que temos um banco de dados, vamos criar nossa primeira tabela dentro dele. Esta tabela armazenará informações sobre as várias criaturas mágicas que habitam a Ilha Banister.

Primeiro, mude para o banco de dados magic_realm executando o seguinte comando no Hive CLI:

USE magic_realm;

Em seguida, crie uma tabela chamada creatures com a seguinte estrutura:

CREATE TABLE creatures (
  id INT,
  name STRING,
  species STRING,
  habitat STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

Este comando cria uma tabela chamada creatures com quatro colunas:

  • id: Um valor inteiro representando o identificador único da criatura.
  • name: Um valor string representando o nome da criatura.
  • species: Um valor string representando a espécie da criatura.
  • habitat: Um valor string representando o habitat onde a criatura reside.

A cláusula ROW FORMAT DELIMITED especifica que os dados na tabela serão delimitados por vírgulas (,).

Carregando Dados na Tabela

Com nossa tabela creatures criada, é hora de preenchê-la com dados. Usaremos um arquivo de dados de amostra contendo informações sobre várias criaturas mágicas.

Primeiro, crie um novo diretório chamado data no diretório /home/hadoop:

mkdir /home/hadoop/data

Em seguida, crie um arquivo chamado creatures.csv no diretório /home/hadoop/data com o seguinte conteúdo:

1,Unicorn,Equine,Forest
2,Phoenix,Avian,Volcanic Regions
3,Mermaid,Aquatic,Oceans
4,Griffon,Hybrid,Mountains

Salve o arquivo e saia do editor de texto.

Então, certifique-se de estar no shell do Hive. Caso contrário, inicie-o executando o seguinte comando:

hive

Mude para o banco de dados magic_realm usando o seguinte comando:

USE magic_realm;

Agora, podemos carregar os dados de creatures.csv na tabela creatures usando o seguinte comando no Hive CLI:

LOAD DATA LOCAL INPATH '/home/hadoop/data/creatures.csv' INTO TABLE creatures;

Este comando carrega os dados do arquivo local /home/hadoop/data/creatures.csv na tabela creatures.

Resumo

Neste laboratório, você ajudou o Feiticeiro Hadrian a navegar pelo reino do Hadoop Hive e a dominar a arte da criação de tabelas. Você aprendeu como criar um banco de dados, definir estruturas de tabelas e carregar dados em tabelas. Essas habilidades fundamentais servirão como a pedra angular para sua jornada no mundo da manipulação e análise de dados.

À medida que você continua seus estudos, você se aprofundará nas complexidades do Hadoop Hive, desbloqueando todo o seu potencial para desvendar os mistérios escondidos em vastos conjuntos de dados. Lembre-se, o caminho para a maestria reside na prática diligente e na determinação inabalável. Abrace os desafios e deixe que a sabedoria dos pergaminhos antigos o guie para se tornar um verdadeiro feiticeiro de dados.