Введение
В этом лабораторном занятии мы будем использовать scikit-learn для создания двухклассового разделимого набора данных и построения гиперплоскости разделения с максимальным отступом с использованием классификатора Support Vector Machine (SVM) с линейным ядром. SVM - это мощный алгоритм классификации, который находит наилучшую границу или гиперплоскость, которая разделяет данные на разные классы, при этом максимизируя отступ между классами.
Советы по работе с ВМ
После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.
Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.
Создание двухклассового разделимого набора данных
Для создания двухклассового разделимого набора данных мы будем использовать функцию make_blobs() из scikit-learn. Эта функция генерирует изотропные гауссовы "куски" для кластеризации и классификации. Мы создадим 40 образцов с двумя центрами и случайным种子ом 6. Также мы построим точки данных с использованием matplotlib.
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
## create a two-class separable dataset
X, y = make_blobs(n_samples=40, centers=2, random_state=6)
## plot the data points
plt.scatter(X[:, 0], X[:, 1], c=y, s=30, cmap=plt.cm.Paired)
plt.show()
Настроить модель SVM
Далее мы настроим модель SVM на наш набор данных с использованием линейного ядра и параметра регуляризации 1000. Мы будем использовать функцию svm.SVC() из scikit-learn для создания классификатора SVM.
from sklearn import svm
## fit the SVM model
clf = svm.SVC(kernel="linear", C=1000)
clf.fit(X, y)
Построить гиперплоскость разделения с максимальным отступом
Для построения гиперплоскости разделения с максимальным отступом мы будем использовать функцию DecisionBoundaryDisplay.from_estimator() из scikit-learn. Эта функция строит функцию решения и векторы поддержки классификатора SVM. Также мы построим векторы поддержки в виде кругов без заливки и с черной обводкой.
from sklearn.inspection import DecisionBoundaryDisplay
## plot the decision function and support vectors
ax = plt.gca()
DecisionBoundaryDisplay.from_estimator(
clf,
X,
plot_method="contour",
colors="k",
levels=[-1, 0, 1],
alpha=0.5,
linestyles=["--", "-", "--"],
ax=ax,
)
ax.scatter(
clf.support_vectors_[:, 0],
clf.support_vectors_[:, 1],
s=100,
linewidth=1,
facecolors="none",
edgecolors="k",
)
plt.show()
Резюме
В этом лабораторном занятии мы узнали, как создать двухклассовый разделимый набор данных, настроить модель SVM с использованием линейного ядра и построить гиперплоскость разделения с максимальным отступом с использованием scikit-learn. SVM - это мощный алгоритм классификации, который может быть использован для различных приложений, включая классификацию изображений, классификацию текстов и биоинформатику.