Introdução
Num país das maravilhas caprichoso onde cogumelos brotam com propriedades mágicas, uma corajosa forrageira chamada Myca embarca numa missão para colher os evasivos cogumelos Updatium. Estes raros fungos possuem o poder extraordinário de atualizar dados no ecossistema Hadoop, uma habilidade cobiçada por todos os entusiastas de dados.
A missão de Myca é navegar pelos caminhos sinuosos da floresta encantada, superando enigmas e obstáculos, para localizar e colher os cogumelos Updatium. A cada colheita bem-sucedida, ela desvendará os segredos da atualização de dados no Hive, um componente poderoso do ecossistema Hadoop, e, em última análise, se tornará uma mestre da manipulação de dados.
Configurando o Ambiente
Nesta etapa, configuraremos o ambiente para nossa mágica aventura de caça aos cogumelos. Criaremos uma nova tabela Hive para armazenar os dados sobre os cogumelos que encontrarmos.
Primeiramente, certifique-se de estar logado como o usuário hadoop executando o seguinte comando no terminal:
su - hadoop
Agora, vamos iniciar a CLI do Hive:
hive
Em seguida, criaremos um novo banco de dados chamado wonderland:
CREATE DATABASE wonderland;
Uma vez que o banco de dados seja criado, vamos usá-lo e criar uma nova tabela chamada mushrooms:
USE wonderland;
CREATE TABLE mushrooms (
id INT,
name STRING,
type STRING,
location STRING
)
CLUSTERED BY (id) INTO 2 BUCKETS
STORED AS ORC
TBLPROPERTIES ('transactional'='true');
Esta tabela armazenará o ID, nome, tipo e localização de cada cogumelo que encontrarmos no país das maravilhas.
Esta tabela pode suportar operações UPDATE ao declarar a tabela como transactional e armazená-la usando o formato ORC.
Colhendo os Cogumelos Updatium
Nesta etapa, colheremos os cogumelos Updatium e inseriremos seus dados na tabela mushrooms que criamos anteriormente.
Primeiramente, vamos inserir alguns dados de exemplo na tabela mushrooms:
INSERT INTO mushrooms VALUES
(1, 'Chanterelle', 'Edible', 'Forest'),
(2, 'Portobello', 'Edible', 'Field'),
(3, 'Amanita muscaria', 'Toxic', 'Forest'),
(4, 'Shiitake', 'Edible', 'Farm'),
(5, 'Oyster', 'Edible', 'Forest');
Em seguida, atualizaremos a coluna type para um cogumelo específico. Digamos que descobrimos que o cogumelo com ID 3 é, na verdade, um cogumelo Updatium:
UPDATE mushrooms SET type = 'Updatium' WHERE id = 3;
Este comando atualizará a coluna type para 'Updatium' para a linha onde id é 3.
Você pode verificar a atualização consultando a tabela:
SELECT * FROM mushrooms WHERE id = 3;
Atualizando Múltiplas Linhas
Nesta etapa, atualizaremos a coluna location para todos os cogumelos Updatium para indicar que eles foram colhidos.
Primeiramente, vamos verificar quantos cogumelos Updatium temos na tabela:
SELECT COUNT(*) FROM mushrooms WHERE type = 'Updatium';
Agora, atualizaremos a coluna location para todos os cogumelos Updatium:
UPDATE mushrooms SET location = 'Harvested' WHERE type = 'Updatium';
Este comando atualizará a coluna location para 'Harvested' para todas as linhas onde type é 'Updatium'.
Você pode verificar a atualização consultando a tabela novamente:
SELECT * FROM mushrooms WHERE type = 'Updatium';
Resumo
Neste laboratório, embarcamos em uma aventura mágica pela terra das maravilhas, aprendendo como atualizar dados no Hive, um componente poderoso do ecossistema Hadoop. Criamos um novo banco de dados e uma tabela para armazenar dados sobre os cogumelos que encontramos, carregamos dados de exemplo e praticamos a atualização de linhas únicas e múltiplas usando a instrução UPDATE.
Através desta experiência prática, não apenas dominamos a arte de atualizar dados, mas também obtivemos informações valiosas sobre o mundo do Hadoop e do Hive. Ao completar este laboratório, desvendamos os segredos dos cogumelos Updatium, tornando-nos proficientes na manipulação de dados e solidificando nossa compreensão do ecossistema Hadoop.



