닌자 리소스 관리 마스터하기 - Hadoop 클러스터 최적화

소개

해돋이의 고대 땅, 웅장한 후지산 봉우리 사이에 자리 잡은 숨겨진 닌자 마을이 번성했습니다. 이곳에서 은밀함, 정확성, 그리고 기민함의 기술이 완벽하게 연마되었습니다. 이 마을의 엘리트 계급 중에는 닌자 무기의 명장인 유키가 있었습니다.

유키의 대장간은 그녀의 변함없는 헌신과 독창성을 보여주는 놀라운 광경이었습니다. 그녀는 최고의 강철로, 공기를 우아하게 가르는 칼날, 정확하게 목표를 맞히는 수리검, 그리고 가장 튼튼한 갑옷도 뚫을 수 있는 쿠나이를 만들었습니다.

그러나 유키의 진정한 숙련도는 그녀의 장인 정신뿐만 아니라 마을의 자원을 관리하는 능력에 있었습니다. 닌자 씨족이 성장함에 따라 무기와 장비에 대한 수요도 증가했고, 유키는 모든 닌자가 필요할 때 필요한 도구를 사용할 수 있도록 보장하는 임무를 맡게 되었습니다.

이러한 노력 속에서 유키는 Hadoop Resource Manager (Hadoop 리소스 관리자) 의 힘을 발견했습니다. 이는 마을의 자원을 효율적으로 할당하고 관리하여 모든 닌자의 임무가 성공적으로 수행되도록 보장하는 강력한 도구였습니다.

Hadoop Resource Manager 이해하기

이 단계에서는 Hadoop Resource Manager 의 기본 사항과 Hadoop 생태계에서의 역할에 대해 자세히 알아보겠습니다.

먼저, 기본 사용자를 변경합니다:

su - hadoop

Hadoop Resource Manager 는 Hadoop 의 YARN (Yet Another Resource Negotiator, 또 다른 리소스 협상자) 아키텍처의 핵심 구성 요소입니다. 이는 클러스터의 컴퓨팅 리소스를 관리하고 사용 가능한 노드에서 애플리케이션을 스케줄링하는 역할을 합니다.

시작하기 위해, Resource Manager 의 아키텍처를 살펴보겠습니다:

+------------------+
|  Resource Manager|
+------------------+
|  Scheduler       |
|  ApplicationsMaster
|  NodeManager     |
+------------------+

Resource Manager 는 세 가지 주요 구성 요소로 구성됩니다:

Scheduler (스케줄러): 이 구성 요소는 미리 정의된 스케줄링 정책에 따라 다양한 실행 중인 애플리케이션에 리소스를 할당하는 역할을 합니다.
ApplicationsManager (애플리케이션 관리자): 이 구성 요소는 작업 제출을 수락하고, ApplicationMaster 를 실행하기 위한 첫 번째 컨테이너를 협상하며, ApplicationMaster 컨테이너의 실패 시 재시작 서비스를 제공하는 역할을 합니다.
NodeManager (노드 관리자): 이 구성 요소는 클러스터의 각 노드에서 실행되며, Scheduler 에 의해 할당된 컨테이너를 시작하고 모니터링하는 역할을 합니다.

Resource Manager 의 기능을 더 잘 이해하기 위해 간단한 예제를 살펴보겠습니다.

샘플 MapReduce 작업을 클러스터에 제출합니다:

yarn jar /home/hadoop/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar pi 16 1000000

작업 상태를 확인합니다:

yarn application -list

출력은 다음과 유사해야 합니다:

2024-03-23 22:48:44,206 INFO client.DefaultNoHARMFailoverProxyProvider: Connecting to ResourceManager at /0.0.0.0:8032
Total number of applications (application-types: [], states: [SUBMITTED, ACCEPTED, RUNNING] and tags: []):1
                Application-Id     Application-Name     Application-Type       User      Queue              State        Final-State        Progress                        Tracking-URL
application_1711205220447_0001      QuasiMonteCarlo            MAPREDUCE     hadoop    default            RUNNING          UNDEFINED

이 예제에서는 yarn 명령을 사용하여 MapReduce 작업을 클러스터에 제출합니다. Resource Manager 는 작업 요청을 수신하고 작업을 실행하는 데 필요한 리소스 (컨테이너) 를 할당합니다. 그런 다음 제공된 명령을 사용하여 작업 상태를 확인하고 로그를 볼 수 있습니다.

Resource Manager 설정

이 단계에서는 닌자 마을의 특정 요구 사항을 충족하도록 Resource Manager 를 구성하는 방법을 살펴보겠습니다.

Resource Manager 의 동작은 다양한 구성 속성을 통해 사용자 정의할 수 있습니다. 이러한 속성은 일반적으로 Hadoop 구성 디렉토리 (/home/hadoop/hadoop/etc/hadoop) 에 있는 yarn-site.xml 파일에 설정됩니다.

'yarn' 구성 파일을 보고 몇 가지 추가 구성을 추가해 보겠습니다:

vim /home/hadoop/hadoop/etc/hadoop/yarn-site.xml

구성을 추가합니다:

  <!-- Specify the scheduling policy -->
  <property>
    <name>yarn.resourcemanager.scheduler.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
  </property>

  <!-- Configure the maximum number of applications to run concurrently -->
  <property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>8192</value>
  </property>

  <!-- Configure the minimum and maximum virtual cores per container -->
  <property>
    <name>yarn.scheduler.minimum-allocation-vcores</name>
    <value>1</value>
  </property>
  <property>
    <name>yarn.scheduler.maximum-allocation-vcores</name>
    <value>4</value>
  </property>

이 구성 파일에서 다음과 같은 속성을 설정했습니다:

yarn.resourcemanager.scheduler.class: 사용할 스케줄링 정책을 지정합니다. 이 경우, 공정 스케줄러 (Fair Scheduler) 를 사용하여 애플리케이션 간에 리소스가 공정하게 할당되도록 합니다.
yarn.scheduler.maximum-allocation-mb: 단일 컨테이너에 할당할 수 있는 최대 메모리 양 (메가바이트) 을 설정합니다.
yarn.scheduler.minimum-allocation-vcores 및 yarn.scheduler.maximum-allocation-vcores: 각각 컨테이너에 할당할 수 있는 최소 및 최대 가상 코어 수를 정의합니다.

이러한 구성 변경 사항을 적용하려면 Hadoop 서비스를 다시 시작해야 합니다.

애플리케이션 모니터링 및 관리

이 단계에서는 Resource Manager 를 사용하여 Hadoop 클러스터에서 실행 중인 애플리케이션을 모니터링하고 관리하는 방법을 배우겠습니다.

Resource Manager 는 클러스터의 리소스와 실행 중인 애플리케이션을 모니터링하고 관리할 수 있는 웹 사용자 인터페이스 (UI) 를 제공합니다. Resource Manager UI 에 액세스하려면 웹 브라우저를 열고 http://<resource-manager-hostname>:8088로 이동합니다.

Resource Manager UI 에서는 클러스터, 노드 및 애플리케이션에 대한 정보를 제공하는 다양한 섹션을 볼 수 있습니다. 다음은 몇 가지 주요 기능입니다:

Cluster Metrics (클러스터 메트릭): 이 섹션은 총 사용 가능한 리소스, 실행 중인 애플리케이션 수 및 리소스 사용률과 같은 전반적인 클러스터 메트릭을 표시합니다.
Node Managers (노드 관리자): 이 섹션은 클러스터의 모든 활성 NodeManager 를 상태, 사용 가능한 리소스 및 실행 중인 컨테이너와 함께 나열합니다.
Running Applications (실행 중인 애플리케이션): 이 섹션은 현재 실행 중인 애플리케이션, 진행 상황, 리소스 사용량 및 기타 세부 정보를 보여줍니다.
Application History (애플리케이션 기록): 이 섹션은 로그 및 메트릭을 포함하여 완료된 애플리케이션의 기록 보기를 제공합니다.

Resource Manager UI 를 사용하여 애플리케이션을 관리하는 방법을 보여주기 위해, 클러스터에 새 애플리케이션을 제출해 보겠습니다.

## Submit a WordCount job to the cluster
yarn jar /home/hadoop/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /home/hadoop/input /home/hadoop/output

이 스크립트는 WordCount MapReduce 작업을 클러스터에 제출합니다. 스크립트를 실행하기 전에 입력 디렉토리를 만들고 텍스트 파일을 넣어야 합니다:

hdfs dfs -mkdir -p /home/hadoop/input
hdfs dfs -put /home/hadoop/hello.txt /home/hadoop/input

작업을 제출한 후 Resource Manager UI 에서 진행 상황을 모니터링하고 관리할 수 있습니다. 작업의 로그를 보거나, 필요한 경우 작업을 종료하거나, 작업이 완료되면 출력 디렉토리를 확인할 수 있습니다.

입력 파일 내용 보기:

hadoop:~/ $ hadoop fs -cat /home/hadoop/input/*                      [22:56:37]
hello labex
hello hadoop
hello spark
hello flink

출력 파일 내용 보기:

hadoop:~/ $ hadoop fs -cat /home/hadoop/output/*                     [22:57:37]
flink 1
hadoop 1
hello 4
labex 1
spark 1

요약

이 랩에서는 Hadoop 클러스터에서 효율적인 리소스 할당 및 관리를 가능하게 하는 강력한 도구인 Hadoop Resource Manager 를 살펴보았습니다. Resource Manager 의 아키텍처를 자세히 살펴보고, 특정 요구 사항을 충족하도록 구성하는 방법을 배우고, 클러스터에서 실행 중인 애플리케이션을 모니터링하고 관리하기 위한 다양한 기술을 발견했습니다.

닌자 무기 장인인 유키의 여정을 통해, 모든 닌자가 성공적인 임무를 수행하는 데 필요한 도구에 접근할 수 있도록 보장하는 Resource Manager 의 혁신적인 힘을 목격했습니다. 유키가 리소스 관리 기술을 마스터한 것처럼, 우리도 Hadoop Resource Manager 의 기능을 활용하여 빅 데이터 처리 워크플로우를 최적화할 수 있습니다.

이 랩은 Resource Manager 에 대한 실질적인 경험을 제공했을 뿐만 아니라 Hadoop 생태계와 그 다양한 구성 요소에 대한 더 깊은 이해를 심어주었습니다. 리소스 관리 및 효율적인 스케줄링의 원칙을 수용함으로써, 우리는 데이터 처리 능력을 새로운 영역으로 열고 가장 강력한 빅 데이터 과제조차 해결할 수 있습니다.

닌자 리소스 관리 마스터리

소개

Hadoop Resource Manager 이해하기

Resource Manager 설정

애플리케이션 모니터링 및 관리

요약