Мастерство в создании гиперплоскости разделения с максимальным отступом с использованием SVM

Введение

В этом лабораторном занятии мы будем использовать scikit-learn для создания двухклассового разделимого набора данных и построения гиперплоскости разделения с максимальным отступом с использованием классификатора Support Vector Machine (SVM) с линейным ядром. SVM - это мощный алгоритм классификации, который находит наилучшую границу или гиперплоскость, которая разделяет данные на разные классы, при этом максимизируя отступ между классами.

Советы по работе с ВМ

После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Создание двухклассового разделимого набора данных

Для создания двухклассового разделимого набора данных мы будем использовать функцию make_blobs() из scikit-learn. Эта функция генерирует изотропные гауссовы "куски" для кластеризации и классификации. Мы создадим 40 образцов с двумя центрами и случайным种子ом 6. Также мы построим точки данных с использованием matplotlib.

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

## create a two-class separable dataset
X, y = make_blobs(n_samples=40, centers=2, random_state=6)

## plot the data points
plt.scatter(X[:, 0], X[:, 1], c=y, s=30, cmap=plt.cm.Paired)
plt.show()

Настроить модель SVM

Далее мы настроим модель SVM на наш набор данных с использованием линейного ядра и параметра регуляризации 1000. Мы будем использовать функцию svm.SVC() из scikit-learn для создания классификатора SVM.

from sklearn import svm

## fit the SVM model
clf = svm.SVC(kernel="linear", C=1000)
clf.fit(X, y)

Построить гиперплоскость разделения с максимальным отступом

Для построения гиперплоскости разделения с максимальным отступом мы будем использовать функцию DecisionBoundaryDisplay.from_estimator() из scikit-learn. Эта функция строит функцию решения и векторы поддержки классификатора SVM. Также мы построим векторы поддержки в виде кругов без заливки и с черной обводкой.

from sklearn.inspection import DecisionBoundaryDisplay

## plot the decision function and support vectors
ax = plt.gca()
DecisionBoundaryDisplay.from_estimator(
    clf,
    X,
    plot_method="contour",
    colors="k",
    levels=[-1, 0, 1],
    alpha=0.5,
    linestyles=["--", "-", "--"],
    ax=ax,
)
ax.scatter(
    clf.support_vectors_[:, 0],
    clf.support_vectors_[:, 1],
    s=100,
    linewidth=1,
    facecolors="none",
    edgecolors="k",
)
plt.show()

Резюме

В этом лабораторном занятии мы узнали, как создать двухклассовый разделимый набор данных, настроить модель SVM с использованием линейного ядра и построить гиперплоскость разделения с максимальным отступом с использованием scikit-learn. SVM - это мощный алгоритм классификации, который может быть использован для различных приложений, включая классификацию изображений, классификацию текстов и биоинформатику.

SVM: Максимальная гиперплоскость разделения с отступом