Введение
В этом практическом занятии (лабораторной работе) мы научимся использовать Деревья решений (Decision Trees) для классификации с помощью библиотеки scikit-learn. Деревья решений — это непараметрический метод машинного обучения с учителем, используемый для классификации и регрессии. Они просты в понимании и интерпретации и могут обрабатывать как числовые, так и категориальные данные.
Советы по виртуальной машине (VM)
После запуска виртуальной машины нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.
Если у вас возникнут проблемы во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.
Импорт необходимых библиотек
Сначала нам нужно импортировать необходимые библиотеки. Мы будем использовать библиотеку scikit-learn для построения и обучения классификатора на основе Дерева решений (Decision Tree).
from sklearn import tree
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
Загрузка набора данных
Далее мы загрузим набор данных Ирисов (Iris dataset). Этот набор данных содержит информацию о четырех характеристиках трех различных видов ирисов. Мы будем использовать этот набор данных для обучения нашего классификатора на основе Дерева решений (Decision Tree).
## Загрузка набора данных Ирисов
iris = load_iris()
X = iris.data
y = iris.target
Разделение набора данных
Перед обучением классификатора на основе Дерева решений (Decision Tree) нам нужно разделить набор данных на обучающую и тестовую выборки. Мы будем использовать 70% данных для обучения и 30% для тестирования.
## Разделение набора данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
Создание и обучение классификатора на основе Дерева решений
Теперь мы можем создать и обучить классификатор на основе Дерева решений (Decision Tree) с использованием обучающих данных.
## Создание классификатора на основе Дерева решений
clf = tree.DecisionTreeClassifier()
## Обучение классификатора
clf.fit(X_train, y_train)
Выполнение предсказаний
После того, как классификатор обучен, мы можем использовать его для выполнения предсказаний на тестовых данных.
## Выполнение предсказаний на тестовых данных
y_pred = clf.predict(X_test)
## Вывод предсказанных значений
print("Predicted values:", y_pred)
Оценка модели
Наконец, мы можем оценить точность нашей модели, сравнив предсказанные значения с истинными.
## Вычисление точности модели
accuracy = accuracy_score(y_test, y_pred)
## Вывод точности
print("Accuracy:", accuracy)
Резюме
В этом практическом занятии (lab) мы научились использовать Деревья решений (Decision Trees) для классификации с помощью библиотеки scikit-learn. Мы загрузили набор данных Ирисов (Iris dataset), разделили данные на обучающую и тестовую выборки, создали и обучили классификатор на основе Дерева решений, выполнили предсказания на тестовых данных и оценили точность модели. Деревья решений - это мощный и интерпретируемый метод для задач классификации.