Ecossistema Hadoop | Colheita de Cogumelos Updatium

Introdução

Num país das maravilhas caprichoso onde cogumelos brotam com propriedades mágicas, uma corajosa forrageira chamada Myca embarca numa missão para colher os evasivos cogumelos Updatium. Estes raros fungos possuem o poder extraordinário de atualizar dados no ecossistema Hadoop, uma habilidade cobiçada por todos os entusiastas de dados.

A missão de Myca é navegar pelos caminhos sinuosos da floresta encantada, superando enigmas e obstáculos, para localizar e colher os cogumelos Updatium. A cada colheita bem-sucedida, ela desvendará os segredos da atualização de dados no Hive, um componente poderoso do ecossistema Hadoop, e, em última análise, se tornará uma mestre da manipulação de dados.

Configurando o Ambiente

Nesta etapa, configuraremos o ambiente para nossa mágica aventura de caça aos cogumelos. Criaremos uma nova tabela Hive para armazenar os dados sobre os cogumelos que encontrarmos.

Primeiramente, certifique-se de estar logado como o usuário hadoop executando o seguinte comando no terminal:

su - hadoop

Agora, vamos iniciar a CLI do Hive:

hive

Em seguida, criaremos um novo banco de dados chamado wonderland:

CREATE DATABASE wonderland;

Uma vez que o banco de dados seja criado, vamos usá-lo e criar uma nova tabela chamada mushrooms:

USE wonderland;

CREATE TABLE mushrooms (
    id INT,
    name STRING,
    type STRING,
    location STRING
)
CLUSTERED BY (id) INTO 2 BUCKETS
STORED AS ORC
TBLPROPERTIES ('transactional'='true');

Esta tabela armazenará o ID, nome, tipo e localização de cada cogumelo que encontrarmos no país das maravilhas. Esta tabela pode suportar operações UPDATE ao declarar a tabela como transactional e armazená-la usando o formato ORC.

Colhendo os Cogumelos Updatium

Nesta etapa, colheremos os cogumelos Updatium e inseriremos seus dados na tabela mushrooms que criamos anteriormente.

Primeiramente, vamos inserir alguns dados de exemplo na tabela mushrooms:

INSERT INTO mushrooms VALUES
(1, 'Chanterelle', 'Edible', 'Forest'),
(2, 'Portobello', 'Edible', 'Field'),
(3, 'Amanita muscaria', 'Toxic', 'Forest'),
(4, 'Shiitake', 'Edible', 'Farm'),
(5, 'Oyster', 'Edible', 'Forest');

Em seguida, atualizaremos a coluna type para um cogumelo específico. Digamos que descobrimos que o cogumelo com ID 3 é, na verdade, um cogumelo Updatium:

UPDATE mushrooms SET type = 'Updatium' WHERE id = 3;

Este comando atualizará a coluna type para 'Updatium' para a linha onde id é 3.

Você pode verificar a atualização consultando a tabela:

SELECT * FROM mushrooms WHERE id = 3;

Atualizando Múltiplas Linhas

Nesta etapa, atualizaremos a coluna location para todos os cogumelos Updatium para indicar que eles foram colhidos.

Primeiramente, vamos verificar quantos cogumelos Updatium temos na tabela:

SELECT COUNT(*) FROM mushrooms WHERE type = 'Updatium';

Agora, atualizaremos a coluna location para todos os cogumelos Updatium:

UPDATE mushrooms SET location = 'Harvested' WHERE type = 'Updatium';

Este comando atualizará a coluna location para 'Harvested' para todas as linhas onde type é 'Updatium'.

Você pode verificar a atualização consultando a tabela novamente:

SELECT * FROM mushrooms WHERE type = 'Updatium';

Resumo

Neste laboratório, embarcamos em uma aventura mágica pela terra das maravilhas, aprendendo como atualizar dados no Hive, um componente poderoso do ecossistema Hadoop. Criamos um novo banco de dados e uma tabela para armazenar dados sobre os cogumelos que encontramos, carregamos dados de exemplo e praticamos a atualização de linhas únicas e múltiplas usando a instrução UPDATE.

Através desta experiência prática, não apenas dominamos a arte de atualizar dados, mas também obtivemos informações valiosas sobre o mundo do Hadoop e do Hive. Ao completar este laboratório, desvendamos os segredos dos cogumelos Updatium, tornando-nos proficientes na manipulação de dados e solidificando nossa compreensão do ecossistema Hadoop.

A Busca por Updatium na Terra das Maravilhas do Hadoop

Introdução

Configurando o Ambiente

Colhendo os Cogumelos Updatium

Atualizando Múltiplas Linhas

Resumo