Классификация с использованием Деревьев решений в библиотеке Scikit-Learn

Beginner

This tutorial is from open-source community. Access the source code

Введение

В этом практическом занятии (лабораторной работе) мы научимся использовать Деревья решений (Decision Trees) для классификации с помощью библиотеки scikit-learn. Деревья решений — это непараметрический метод машинного обучения с учителем, используемый для классификации и регрессии. Они просты в понимании и интерпретации и могут обрабатывать как числовые, так и категориальные данные.

Советы по виртуальной машине (VM)

После запуска виртуальной машины нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если у вас возникнут проблемы во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импорт необходимых библиотек

Сначала нам нужно импортировать необходимые библиотеки. Мы будем использовать библиотеку scikit-learn для построения и обучения классификатора на основе Дерева решений (Decision Tree).

from sklearn import tree
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

Загрузка набора данных

Далее мы загрузим набор данных Ирисов (Iris dataset). Этот набор данных содержит информацию о четырех характеристиках трех различных видов ирисов. Мы будем использовать этот набор данных для обучения нашего классификатора на основе Дерева решений (Decision Tree).

## Загрузка набора данных Ирисов
iris = load_iris()
X = iris.data
y = iris.target

Разделение набора данных

Перед обучением классификатора на основе Дерева решений (Decision Tree) нам нужно разделить набор данных на обучающую и тестовую выборки. Мы будем использовать 70% данных для обучения и 30% для тестирования.

## Разделение набора данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Создание и обучение классификатора на основе Дерева решений

Теперь мы можем создать и обучить классификатор на основе Дерева решений (Decision Tree) с использованием обучающих данных.

## Создание классификатора на основе Дерева решений
clf = tree.DecisionTreeClassifier()

## Обучение классификатора
clf.fit(X_train, y_train)

Выполнение предсказаний

После того, как классификатор обучен, мы можем использовать его для выполнения предсказаний на тестовых данных.

## Выполнение предсказаний на тестовых данных
y_pred = clf.predict(X_test)

## Вывод предсказанных значений
print("Predicted values:", y_pred)

Оценка модели

Наконец, мы можем оценить точность нашей модели, сравнив предсказанные значения с истинными.

## Вычисление точности модели
accuracy = accuracy_score(y_test, y_pred)

## Вывод точности
print("Accuracy:", accuracy)

Резюме

В этом практическом занятии (lab) мы научились использовать Деревья решений (Decision Trees) для классификации с помощью библиотеки scikit-learn. Мы загрузили набор данных Ирисов (Iris dataset), разделили данные на обучающую и тестовую выборки, создали и обучили классификатор на основе Дерева решений, выполнили предсказания на тестовых данных и оценили точность модели. Деревья решений - это мощный и интерпретируемый метод для задач классификации.