Классификация с использованием Деревьев решений в библиотеке Scikit-Learn

Machine LearningMachine LearningBeginner
Практиковаться сейчас

This tutorial is from open-source community. Access the source code

💡 Этот учебник переведен с английского с помощью ИИ. Чтобы просмотреть оригинал, вы можете перейти на английский оригинал

Введение

В этом практическом занятии (лабораторной работе) мы научимся использовать Деревья решений (Decision Trees) для классификации с помощью библиотеки scikit-learn. Деревья решений — это непараметрический метод машинного обучения с учителем, используемый для классификации и регрессии. Они просты в понимании и интерпретации и могут обрабатывать как числовые, так и категориальные данные.

Советы по виртуальной машине (VM)

После запуска виртуальной машины нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если у вас возникнут проблемы во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/ModelSelectionandEvaluationGroup(["Model Selection and Evaluation"]) sklearn(("Sklearn")) -.-> sklearn/UtilitiesandDatasetsGroup(["Utilities and Datasets"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/model_selection("Model Selection") sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/metrics("Metrics") sklearn/UtilitiesandDatasetsGroup -.-> sklearn/datasets("Datasets") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/model_selection -.-> lab-71107{{"Классификация с использованием Деревьев решений в библиотеке Scikit-Learn"}} sklearn/metrics -.-> lab-71107{{"Классификация с использованием Деревьев решений в библиотеке Scikit-Learn"}} sklearn/datasets -.-> lab-71107{{"Классификация с использованием Деревьев решений в библиотеке Scikit-Learn"}} ml/sklearn -.-> lab-71107{{"Классификация с использованием Деревьев решений в библиотеке Scikit-Learn"}} end

Импорт необходимых библиотек

Сначала нам нужно импортировать необходимые библиотеки. Мы будем использовать библиотеку scikit-learn для построения и обучения классификатора на основе Дерева решений (Decision Tree).

from sklearn import tree
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

Загрузка набора данных

Далее мы загрузим набор данных Ирисов (Iris dataset). Этот набор данных содержит информацию о четырех характеристиках трех различных видов ирисов. Мы будем использовать этот набор данных для обучения нашего классификатора на основе Дерева решений (Decision Tree).

## Загрузка набора данных Ирисов
iris = load_iris()
X = iris.data
y = iris.target

Разделение набора данных

Перед обучением классификатора на основе Дерева решений (Decision Tree) нам нужно разделить набор данных на обучающую и тестовую выборки. Мы будем использовать 70% данных для обучения и 30% для тестирования.

## Разделение набора данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Создание и обучение классификатора на основе Дерева решений

Теперь мы можем создать и обучить классификатор на основе Дерева решений (Decision Tree) с использованием обучающих данных.

## Создание классификатора на основе Дерева решений
clf = tree.DecisionTreeClassifier()

## Обучение классификатора
clf.fit(X_train, y_train)

Выполнение предсказаний

После того, как классификатор обучен, мы можем использовать его для выполнения предсказаний на тестовых данных.

## Выполнение предсказаний на тестовых данных
y_pred = clf.predict(X_test)

## Вывод предсказанных значений
print("Predicted values:", y_pred)

Оценка модели

Наконец, мы можем оценить точность нашей модели, сравнив предсказанные значения с истинными.

## Вычисление точности модели
accuracy = accuracy_score(y_test, y_pred)

## Вывод точности
print("Accuracy:", accuracy)

Резюме

В этом практическом занятии (lab) мы научились использовать Деревья решений (Decision Trees) для классификации с помощью библиотеки scikit-learn. Мы загрузили набор данных Ирисов (Iris dataset), разделили данные на обучающую и тестовую выборки, создали и обучили классификатор на основе Дерева решений, выполнили предсказания на тестовых данных и оценили точность модели. Деревья решений - это мощный и интерпретируемый метод для задач классификации.