Scikit-learn 을 이용한 의사결정 트리 분류

Beginner

This tutorial is from open-source community. Access the source code

소개

이 실습에서는 scikit-learn 을 사용하여 의사결정 트리를 분류에 활용하는 방법을 배웁니다. 의사결정 트리는 분류 및 회귀에 사용되는 비모수적 지도 학습 방법입니다. 이해하고 해석하기 쉽고, 수치형 및 범주형 데이터 모두 처리할 수 있습니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 연습용 Jupyter Notebook에 접근합니다.

때때로 Jupyter Notebook 이 완전히 로드되기까지 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사를 자동화할 수 없습니다.

학습 중 문제가 발생하면 Labby 에게 문의하십시오. 세션 후 피드백을 제공하면 문제를 신속하게 해결해 드리겠습니다.

필요한 라이브러리 가져오기

먼저, 필요한 라이브러리를 가져와야 합니다. 의사결정 트리 분류기를 구축하고 학습하는 데 scikit-learn 을 사용할 것입니다.

from sklearn import tree
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

데이터셋 로드

다음으로, 아이리스 (Iris) 데이터셋을 로드합니다. 이 데이터셋은 세 가지 다른 아이리스 꽃 종의 네 가지 특징에 대한 정보를 포함합니다. 이 데이터셋을 사용하여 의사결정 트리 분류기를 학습할 것입니다.

## 아이리스 데이터셋 로드
iris = load_iris()
X = iris.data
y = iris.target

데이터셋 분할

의사결정 트리 분류기를 학습하기 전에 데이터셋을 학습용과 테스트용으로 분할해야 합니다. 데이터의 70% 를 학습에, 30% 를 테스트에 사용할 것입니다.

## 데이터셋을 학습용과 테스트용으로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

의사결정 트리 분류기 생성 및 학습

이제 학습 데이터를 사용하여 의사결정 트리 분류기를 생성하고 학습할 수 있습니다.

## 의사결정 트리 분류기 생성
clf = tree.DecisionTreeClassifier()

## 분류기 학습
clf.fit(X_train, y_train)

예측 수행

분류기가 학습되면 테스트 데이터에 대한 예측을 수행할 수 있습니다.

## 테스트 데이터에 대한 예측 수행
y_pred = clf.predict(X_test)

## 예측된 값 출력
print("예측된 값:", y_pred)

모델 평가

마지막으로, 예측된 값과 실제 값을 비교하여 모델의 정확도를 평가할 수 있습니다.

## 모델의 정확도 계산
accuracy = accuracy_score(y_test, y_pred)

## 정확도 출력
print("정확도:", accuracy)

요약

이 실습에서는 scikit-learn 을 사용하여 의사결정 트리를 분류에 활용하는 방법을 배웠습니다. 아이리스 데이터셋을 불러오고, 데이터를 학습 및 테스트 세트로 분할하고, 의사결정 트리 분류기를 생성 및 학습하고, 테스트 데이터에 대한 예측을 수행하고, 모델의 정확도를 평가했습니다. 의사결정 트리는 분류 작업에 유용하고 해석 가능한 방법입니다.