Hadoop 데이터 복제

HadoopBeginner
지금 연습하기

소개

Hadoop 데이터 복제 세계에 오신 것을 환영합니다! 이 랩에서는 Hadoop HDFS 와 데이터 복제 기능의 복잡성을 탐색해야 하는 시간 여행자로서 시간 여행 포털을 통해 흥미진진한 여정을 시작합니다. 여러분의 목표는 숙련된 Hadoop 관리자와 마찬가지로 분산 환경에서 데이터의 효율적인 복제를 보장하여 내결함성 (fault tolerance) 과 데이터 가용성을 향상시키는 것입니다.

Hadoop 데이터 복제 이해

이 단계에서는 Hadoop 의 데이터 복제 개념을 자세히 살펴보고, 데이터 복제가 분산 데이터의 고가용성 (high availability) 및 신뢰성 (reliability) 에 어떻게 기여하는지 이해합니다. HDFS 의 데이터 복제와 관련된 구성 설정을 살펴보면서 시작해 보겠습니다.

  1. 터미널을 열고 hadoop 사용자로 전환합니다.

    su - hadoop
  2. 텍스트 편집기를 사용하여 hdfs-site.xml 파일을 엽니다.

    vim /home/hadoop/hadoop/etc/hadoop/hdfs-site.xml

    또는

    nano /home/hadoop/hadoop/etc/hadoop/hdfs-site.xml
  3. 복제 인자 (replication factor) 를 정의하는 매개변수를 찾아 값을 3으로 설정합니다.

    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
  4. 변경 사항을 저장하고 텍스트 편집기를 종료합니다.

  5. HDFS 구성을 확인하여 복제 인자가 올바르게 설정되었는지 확인합니다.

    hdfs getconf -confKey dfs.replication
  6. 변경 사항을 적용하려면 HDFS 서비스를 다시 시작합니다.

    HDFS 서비스 중지:

    /home/hadoop/hadoop/sbin/stop-dfs.sh

    HDFS 서비스 시작:

    /home/hadoop/hadoop/sbin/start-dfs.sh

데이터 복제 테스트

이 단계에서는 HDFS 에 샘플 파일을 생성하고, 내결함성 (fault tolerance) 을 달성하기 위해 데이터 블록의 중복 복사본을 유지하기 위해 데이터 복제 프로세스가 어떻게 작동하는지 관찰합니다.

  1. HDFS 에 새 파일을 생성합니다.

    echo "Hello, HDFS" | hdfs dfs -put - /user/hadoop/samplefile.txt
  2. 파일의 복제 상태를 확인하여 몇 개의 복제본이 생성되었는지 확인합니다.

    hdfs fsck /home/hadoop/samplefile.txt -files -blocks -locations
  3. 출력 내용을 기반으로 파일의 상태를 확인합니다.

    ...
    Replicated Blocks:
    Total size:    12 B
    Total files:   1
    Total blocks (validated):      1 (avg. block size 12 B)
    Minimally replicated blocks:   1 (100.0 %)
    Over-replicated blocks:        0 (0.0 %)
    Under-replicated blocks:       1 (100.0 %)
    Mis-replicated blocks:         0 (0.0 %)
    Default replication factor:    3
    Average block replication:     1.0
    Missing blocks:                0
    Corrupt blocks:                0
    Missing replicas:              2 (66.666664 %)
    Blocks queued for replication: 0
    ...

요약

이 랩에서는 HDFS 내의 Hadoop 데이터 복제 (Data Replication) 의 핵심 개념을 자세히 살펴보았습니다. 복제 인자 (replication factor) 를 구성하고 실제 복제 프로세스를 관찰함으로써, Hadoop 이 분산 환경에서 데이터 내구성 (data durability) 및 내결함성 (fault tolerance) 을 어떻게 보장하는지 더 깊이 이해하게 되었습니다. 이러한 측면을 탐구하는 것은 Hadoop 기술을 향상시킬 뿐만 아니라 Hadoop 을 사용하여 강력한 데이터 인프라를 유지 관리할 수 있는 지식을 갖추게 합니다. Hadoop 데이터 복제의 세계를 즐겁게 탐험하세요!