소개
Hadoop 데이터 복제 세계에 오신 것을 환영합니다! 이 랩에서는 Hadoop HDFS 와 데이터 복제 기능의 복잡성을 탐색해야 하는 시간 여행자로서 시간 여행 포털을 통해 흥미진진한 여정을 시작합니다. 여러분의 목표는 숙련된 Hadoop 관리자와 마찬가지로 분산 환경에서 데이터의 효율적인 복제를 보장하여 내결함성 (fault tolerance) 과 데이터 가용성을 향상시키는 것입니다.
Hadoop 데이터 복제 세계에 오신 것을 환영합니다! 이 랩에서는 Hadoop HDFS 와 데이터 복제 기능의 복잡성을 탐색해야 하는 시간 여행자로서 시간 여행 포털을 통해 흥미진진한 여정을 시작합니다. 여러분의 목표는 숙련된 Hadoop 관리자와 마찬가지로 분산 환경에서 데이터의 효율적인 복제를 보장하여 내결함성 (fault tolerance) 과 데이터 가용성을 향상시키는 것입니다.
이 단계에서는 Hadoop 의 데이터 복제 개념을 자세히 살펴보고, 데이터 복제가 분산 데이터의 고가용성 (high availability) 및 신뢰성 (reliability) 에 어떻게 기여하는지 이해합니다. HDFS 의 데이터 복제와 관련된 구성 설정을 살펴보면서 시작해 보겠습니다.
터미널을 열고 hadoop 사용자로 전환합니다.
su - hadoop
텍스트 편집기를 사용하여 hdfs-site.xml 파일을 엽니다.
vim /home/hadoop/hadoop/etc/hadoop/hdfs-site.xml
또는
nano /home/hadoop/hadoop/etc/hadoop/hdfs-site.xml
복제 인자 (replication factor) 를 정의하는 매개변수를 찾아 값을 3으로 설정합니다.
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
변경 사항을 저장하고 텍스트 편집기를 종료합니다.
HDFS 구성을 확인하여 복제 인자가 올바르게 설정되었는지 확인합니다.
hdfs getconf -confKey dfs.replication
변경 사항을 적용하려면 HDFS 서비스를 다시 시작합니다.
HDFS 서비스 중지:
/home/hadoop/hadoop/sbin/stop-dfs.sh
HDFS 서비스 시작:
/home/hadoop/hadoop/sbin/start-dfs.sh
이 단계에서는 HDFS 에 샘플 파일을 생성하고, 내결함성 (fault tolerance) 을 달성하기 위해 데이터 블록의 중복 복사본을 유지하기 위해 데이터 복제 프로세스가 어떻게 작동하는지 관찰합니다.
HDFS 에 새 파일을 생성합니다.
echo "Hello, HDFS" | hdfs dfs -put - /user/hadoop/samplefile.txt
파일의 복제 상태를 확인하여 몇 개의 복제본이 생성되었는지 확인합니다.
hdfs fsck /home/hadoop/samplefile.txt -files -blocks -locations
출력 내용을 기반으로 파일의 상태를 확인합니다.
...
Replicated Blocks:
Total size: 12 B
Total files: 1
Total blocks (validated): 1 (avg. block size 12 B)
Minimally replicated blocks: 1 (100.0 %)
Over-replicated blocks: 0 (0.0 %)
Under-replicated blocks: 1 (100.0 %)
Mis-replicated blocks: 0 (0.0 %)
Default replication factor: 3
Average block replication: 1.0
Missing blocks: 0
Corrupt blocks: 0
Missing replicas: 2 (66.666664 %)
Blocks queued for replication: 0
...
이 랩에서는 HDFS 내의 Hadoop 데이터 복제 (Data Replication) 의 핵심 개념을 자세히 살펴보았습니다. 복제 인자 (replication factor) 를 구성하고 실제 복제 프로세스를 관찰함으로써, Hadoop 이 분산 환경에서 데이터 내구성 (data durability) 및 내결함성 (fault tolerance) 을 어떻게 보장하는지 더 깊이 이해하게 되었습니다. 이러한 측면을 탐구하는 것은 Hadoop 기술을 향상시킬 뿐만 아니라 Hadoop 을 사용하여 강력한 데이터 인프라를 유지 관리할 수 있는 지식을 갖추게 합니다. Hadoop 데이터 복제의 세계를 즐겁게 탐험하세요!