SVM: Максимальная гиперплоскость разделения с отступом

Machine LearningMachine LearningBeginner
Практиковаться сейчас

This tutorial is from open-source community. Access the source code

💡 Этот учебник переведен с английского с помощью ИИ. Чтобы просмотреть оригинал, вы можете перейти на английский оригинал

Введение

В этом лабораторном занятии мы будем использовать scikit-learn для создания двухклассового разделимого набора данных и построения гиперплоскости разделения с максимальным отступом с использованием классификатора Support Vector Machine (SVM) с линейным ядром. SVM - это мощный алгоритм классификации, который находит наилучшую границу или гиперплоскость, которая разделяет данные на разные классы, при этом максимизируя отступ между классами.

Советы по работе с ВМ

После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/ModelSelectionandEvaluationGroup(["Model Selection and Evaluation"]) sklearn(("Sklearn")) -.-> sklearn/UtilitiesandDatasetsGroup(["Utilities and Datasets"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/inspection("Inspection") sklearn/UtilitiesandDatasetsGroup -.-> sklearn/datasets("Datasets") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/inspection -.-> lab-49284{{"SVM: Максимальная гиперплоскость разделения с отступом"}} sklearn/datasets -.-> lab-49284{{"SVM: Максимальная гиперплоскость разделения с отступом"}} ml/sklearn -.-> lab-49284{{"SVM: Максимальная гиперплоскость разделения с отступом"}} end

Создание двухклассового разделимого набора данных

Для создания двухклассового разделимого набора данных мы будем использовать функцию make_blobs() из scikit-learn. Эта функция генерирует изотропные гауссовы "куски" для кластеризации и классификации. Мы создадим 40 образцов с двумя центрами и случайным种子ом 6. Также мы построим точки данных с использованием matplotlib.

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

## create a two-class separable dataset
X, y = make_blobs(n_samples=40, centers=2, random_state=6)

## plot the data points
plt.scatter(X[:, 0], X[:, 1], c=y, s=30, cmap=plt.cm.Paired)
plt.show()

Настроить модель SVM

Далее мы настроим модель SVM на наш набор данных с использованием линейного ядра и параметра регуляризации 1000. Мы будем использовать функцию svm.SVC() из scikit-learn для создания классификатора SVM.

from sklearn import svm

## fit the SVM model
clf = svm.SVC(kernel="linear", C=1000)
clf.fit(X, y)

Построить гиперплоскость разделения с максимальным отступом

Для построения гиперплоскости разделения с максимальным отступом мы будем использовать функцию DecisionBoundaryDisplay.from_estimator() из scikit-learn. Эта функция строит функцию решения и векторы поддержки классификатора SVM. Также мы построим векторы поддержки в виде кругов без заливки и с черной обводкой.

from sklearn.inspection import DecisionBoundaryDisplay

## plot the decision function and support vectors
ax = plt.gca()
DecisionBoundaryDisplay.from_estimator(
    clf,
    X,
    plot_method="contour",
    colors="k",
    levels=[-1, 0, 1],
    alpha=0.5,
    linestyles=["--", "-", "--"],
    ax=ax,
)
ax.scatter(
    clf.support_vectors_[:, 0],
    clf.support_vectors_[:, 1],
    s=100,
    linewidth=1,
    facecolors="none",
    edgecolors="k",
)
plt.show()

Резюме

В этом лабораторном занятии мы узнали, как создать двухклассовый разделимый набор данных, настроить модель SVM с использованием линейного ядра и построить гиперплоскость разделения с максимальным отступом с использованием scikit-learn. SVM - это мощный алгоритм классификации, который может быть использован для различных приложений, включая классификацию изображений, классификацию текстов и биоинформатику.