Hadoop 에서의 신비로운 테이블 제작

HadoopBeginner
지금 연습하기

소개

신비로운 Banister Isle 에 오신 것을 환영합니다. 이곳은 특별함과 평범함이 얽혀 있는 곳입니다. 이곳에는 수수께끼의 마법사 Hadrian 이 살고 있으며, 그는 비전 마법의 대가입니다. 그의 최신 시도는 데이터 구성 및 조작의 미스터리를 풀 수 있는 고대 Hadoop 두루마리의 비밀을 푸는 것입니다.

만약 당신이 이 퀘스트를 받아들인다면, 당신의 임무는 마법사 Hadrian 이 Hadoop Hive 영역 내에서 테이블을 생성하는 것을 돕는 것입니다. 이 강력한 도구를 사용하면 방대한 양의 데이터를 구조화하고 저장하여 귀중한 통찰력을 추출하고 숨겨진 패턴을 발견할 수 있습니다. 이 랩을 통해 테이블 생성의 복잡성을 배우고 Hadoop 의 기능을 더 깊이 이해할 수 있는 기반을 다질 것입니다.

Hadoop 환경으로 이동

이 단계에서는 Hadoop 사용자의 홈 디렉토리로 이동하여 앞으로 수행할 작업에 대한 환경을 준비합니다.

먼저 터미널 창을 열고 다음 명령을 실행하여 hadoop 사용자로 전환합니다.

su - hadoop

비밀번호를 묻는 메시지는 표시되지 않습니다. hadoop 사용자로 성공적으로 전환되면 현재 작업 디렉토리는 /home/hadoop이어야 합니다.

데이터베이스 생성

테이블을 생성하기 전에, 테이블을 저장할 데이터베이스가 필요합니다. 이 단계에서는 magic_realm이라는 새 데이터베이스를 생성합니다.

터미널에서 다음 명령을 실행하여 Hive CLI 를 시작합니다.

hive

Hive CLI 가 실행되면 다음 명령을 실행하여 magic_realm 데이터베이스를 생성합니다.

CREATE DATABASE magic_realm;

데이터베이스가 생성되었음을 나타내는 성공 메시지가 표시되어야 합니다.

테이블 생성

이제 데이터베이스가 있으므로, 그 안에 첫 번째 테이블을 생성해 보겠습니다. 이 테이블은 Banister Isle 에 서식하는 다양한 마법 생물에 대한 정보를 저장합니다.

먼저 Hive CLI 에서 다음 명령을 실행하여 magic_realm 데이터베이스로 전환합니다.

USE magic_realm;

다음으로, 다음과 같은 구조로 creatures라는 테이블을 생성합니다.

CREATE TABLE creatures (
  id INT,
  name STRING,
  species STRING,
  habitat STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

이 명령은 다음과 같은 네 개의 열을 가진 creatures라는 테이블을 생성합니다.

  • id: 생물의 고유 식별자를 나타내는 정수 값입니다.
  • name: 생물의 이름을 나타내는 문자열 값입니다.
  • species: 생물의 종을 나타내는 문자열 값입니다.
  • habitat: 생물이 서식하는 환경을 나타내는 문자열 값입니다.

ROW FORMAT DELIMITED 절은 테이블의 데이터가 쉼표 (,) 로 구분됨을 지정합니다.

테이블에 데이터 로드

creatures 테이블이 생성되었으므로, 데이터를 채워 넣을 차례입니다. 다양한 마법 생물에 대한 정보를 담고 있는 샘플 데이터 파일을 사용합니다.

먼저, /home/hadoop 디렉토리에 data라는 새 디렉토리를 생성합니다.

mkdir /home/hadoop/data

다음으로, /home/hadoop/data 디렉토리에 다음 내용을 포함하는 creatures.csv라는 파일을 생성합니다.

1,Unicorn,Equine,Forest
2,Phoenix,Avian,Volcanic Regions
3,Mermaid,Aquatic,Oceans
4,Griffon,Hybrid,Mountains

파일을 저장하고 텍스트 편집기를 종료합니다.

그런 다음, Hive 셸에 있는지 확인합니다. 그렇지 않은 경우, 다음 명령을 실행하여 시작합니다.

hive

다음 명령을 사용하여 magic_realm 데이터베이스로 전환합니다.

USE magic_realm;

이제 Hive CLI 에서 다음 명령을 사용하여 creatures.csv의 데이터를 creatures 테이블에 로드할 수 있습니다.

LOAD DATA LOCAL INPATH '/home/hadoop/data/creatures.csv' INTO TABLE creatures;

이 명령은 로컬 파일 /home/hadoop/data/creatures.csv의 데이터를 creatures 테이블에 로드합니다.

요약

이 랩에서는 Hadoop Hive 의 세계를 탐험하고 테이블 생성 기술을 마스터하는 데 있어 마법사 Hadrian 을 도왔습니다. 데이터베이스 생성, 테이블 구조 정의, 그리고 테이블에 데이터 로드하는 방법을 배웠습니다. 이러한 기본적인 기술은 데이터 조작 및 분석의 세계로 나아가는 여정의 초석이 될 것입니다.

학습을 계속하면서 Hadoop Hive 의 복잡성을 더 깊이 파고들어 방대한 데이터 세트 내에 숨겨진 미스터리를 풀 수 있는 잠재력을 최대한 발휘하게 될 것입니다. 숙달의 길은 부지런한 연습과 흔들리지 않는 결의에 있다는 것을 기억하십시오. 도전을 받아들이고, 고대 두루마리의 지혜가 진정한 데이터 마법사가 되도록 당신을 안내하도록 하십시오.