Hadoop 원더랜드의 Updatium 퀘스트

HadoopBeginner
지금 연습하기

소개

마법의 특성을 지닌 버섯이 돋아나는 기발한 원더랜드에서, 용감한 채집가 Myca 는 찾기 힘든 Updatium 버섯을 수확하기 위한 여정을 시작합니다. 이 희귀한 균류는 모든 데이터 애호가들이 탐내는, Hadoop 생태계의 데이터를 업데이트하는 특별한 능력을 가지고 있습니다.

Myca 의 임무는 수수께끼와 장애물을 극복하며, Updatium 버섯을 찾아 수확하기 위해 마법의 숲의 구불구불한 길을 탐험하는 것입니다. 각 성공적인 수확을 통해, 그녀는 Hadoop 생태계의 강력한 구성 요소인 Hive 에서 데이터를 업데이트하는 비밀을 풀고, 궁극적으로 데이터 조작의 마스터가 될 것입니다.

환경 설정

이 단계에서는 마법의 버섯 사냥 모험을 위한 환경을 설정합니다. 우리가 발견한 버섯에 대한 데이터를 저장하기 위해 새로운 Hive 테이블을 생성할 것입니다.

먼저, 터미널에서 다음 명령을 실행하여 hadoop 사용자로 로그인했는지 확인합니다.

su - hadoop

이제 Hive CLI 를 시작해 보겠습니다.

hive

다음으로, wonderland라는 새로운 데이터베이스를 생성합니다.

CREATE DATABASE wonderland;

데이터베이스가 생성되면, 이를 사용하고 mushrooms라는 새로운 테이블을 생성합니다.

USE wonderland;

CREATE TABLE mushrooms (
    id INT,
    name STRING,
    type STRING,
    location STRING
)
CLUSTERED BY (id) INTO 2 BUCKETS
STORED AS ORC
TBLPROPERTIES ('transactional'='true');

이 테이블은 우리가 원더랜드에서 발견한 각 버섯의 ID, 이름, 유형 및 위치를 저장합니다.
이 테이블은 테이블을 transactional로 선언하고 ORC 형식을 사용하여 저장함으로써 UPDATE 작업을 지원할 수 있습니다.

Updatium 버섯 수확

이 단계에서는 Updatium 버섯을 수확하고, 이들의 데이터를 앞서 생성한 mushrooms 테이블에 삽입합니다.

먼저, mushrooms 테이블에 몇 가지 샘플 데이터를 삽입해 보겠습니다.

INSERT INTO mushrooms VALUES
(1, 'Chanterelle', 'Edible', 'Forest'),
(2, 'Portobello', 'Edible', 'Field'),
(3, 'Amanita muscaria', 'Toxic', 'Forest'),
(4, 'Shiitake', 'Edible', 'Farm'),
(5, 'Oyster', 'Edible', 'Forest');

다음으로, 특정 버섯의 type 열을 업데이트합니다. ID 가 3 인 버섯이 실제로 Updatium 버섯이라는 것을 알게 되었다고 가정해 보겠습니다.

UPDATE mushrooms SET type = 'Updatium' WHERE id = 3;

이 명령은 id가 3 인 행에 대해 type 열을 'Updatium'으로 업데이트합니다.

테이블을 쿼리하여 업데이트를 확인할 수 있습니다.

SELECT * FROM mushrooms WHERE id = 3;

여러 행 업데이트

이 단계에서는 모든 Updatium 버섯의 location 열을 업데이트하여 수확되었음을 나타냅니다.

먼저, 테이블에 얼마나 많은 Updatium 버섯이 있는지 확인해 보겠습니다.

SELECT COUNT(*) FROM mushrooms WHERE type = 'Updatium';

이제 모든 Updatium 버섯의 location 열을 업데이트합니다.

UPDATE mushrooms SET location = 'Harvested' WHERE type = 'Updatium';

이 명령은 type'Updatium'인 모든 행에 대해 location 열을 'Harvested'로 업데이트합니다.

테이블을 다시 쿼리하여 업데이트를 확인할 수 있습니다.

SELECT * FROM mushrooms WHERE type = 'Updatium';

요약

이 랩에서는 Hadoop 생태계의 강력한 구성 요소인 Hive 에서 데이터를 업데이트하는 방법을 배우면서 원더랜드 (wonderland) 를 통한 마법 같은 모험을 시작했습니다. 새로운 데이터베이스와 테이블을 생성하여 우리가 발견한 버섯에 대한 데이터를 저장하고, 샘플 데이터를 로드했으며, UPDATE 문을 사용하여 단일 및 여러 행을 업데이트하는 연습을 했습니다.

이러한 실습 경험을 통해 우리는 데이터를 업데이트하는 기술을 숙달했을 뿐만 아니라 Hadoop 및 Hive 의 세계에 대한 귀중한 통찰력을 얻었습니다. 이 랩을 완료함으로써 우리는 Updatium 버섯의 비밀을 풀고 데이터 조작에 능숙해졌으며 Hadoop 생태계에 대한 이해를 공고히 했습니다.