샘플 데이터 세트 생성
이 단계에서는 Hive 에서 join 연산을 연습하기 위해 두 개의 샘플 데이터 세트를 생성합니다.
- 다음 내용으로
employees.txt라는 새 파일을 만듭니다.
101,John Doe,Sales
102,Jane Smith,Marketing
103,Michael Johnson,IT
104,Emily Davis,HR
105,Adam Wilson,Finance
106,Lisa Brown,Operations
- 다음 내용으로
departments.txt라는 다른 파일을 만듭니다.
1,Sales,New York
2,Marketing,Los Angeles
3,IT,Chicago
4,HR,San Francisco
- 다음 명령을 실행하여 Hive 셸을 시작합니다.
hive
- 다음 명령을 실행하여 데이터 세트를 Hive 에 로드합니다.
CREATE TABLE employees (emp_id INT, name STRING, dept STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
LOAD DATA LOCAL INPATH '/home/hadoop/join_lab/employees.txt' OVERWRITE INTO TABLE employees;
CREATE TABLE departments (dept_id INT, dept_name STRING, location STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
LOAD DATA LOCAL INPATH '/home/hadoop/join_lab/departments.txt' OVERWRITE INTO TABLE departments;
이러한 명령은 두 개의 Hive 테이블, employees 및 departments를 생성하고 해당 텍스트 파일에서 데이터를 로드합니다.