Построение разделяющей гиперплоскости с использованием SGD

Beginner

This tutorial is from open-source community. Access the source code

Введение

В этом лабораторном занятии мы научимся использовать метод опорных векторов (Support Vector Machines, SVM) с стохастическим градиентным спуском (Stochastic Gradient Descent, SGD) для классификации данных. SVM - это мощный алгоритм классификации, который широко используется в машинном обучении для классификации и анализа регрессии. Основная идея метода опорных векторов заключается в нахождении наилучшего разделяющего гиперплоскости, которая разделяет данные на классы с максимально возможным отступом. Отступ - это расстояние между гиперплоскостью и ближайшими к ней точками данных из каждого класса. Стохастический градиентный спуск (SGD) - это алгоритм оптимизации, который используется для нахождения наилучших параметров для алгоритма SVM.

Советы по работе с ВМ

После запуска виртуальной машины (VM) кликните в левом верхнем углу, чтобы переключиться на вкладку Notebook и приступить к практике с использованием Jupyter Notebook.

Иногда может потребоваться подождать несколько секунд, пока Jupyter Notebook полностью загрузится. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импортируем необходимые библиотеки и генерируем данные

Во - первых, нам нужно импортировать необходимые библиотеки и сгенерировать набор данных, подходящий для классификации. В этом примере мы сгенерируем 50 разделимых точек с использованием функции make_blobs из Scikit - learn.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import SGDClassifier
from sklearn.datasets import make_blobs

## мы создаем 50 разделимых точек
X, Y = make_blobs(n_samples = 50, centers = 2, random_state = 0, cluster_std = 0.60)

Обучение модели SVM с использованием SGD

Далее, нам нужно обучить модель SVM с использованием SGD. Мы будем использовать класс SGDClassifier из Scikit - learn для обучения модели. Мы установим параметр loss в "hinge", чтобы использовать алгоритм SVM, и параметр alpha в 0,01, чтобы контролировать силу регуляризации. Также мы установим параметр max_iter в 200, чтобы ограничить количество итераций.

## fit the model
clf = SGDClassifier(loss="hinge", alpha=0.01, max_iter=200)
clf.fit(X, Y)

Построим разделяющую гиперплоскость с максимальным отступом

Наконец, мы можем построить разделяющую гиперплоскость с максимальным отступом, которую мы получили с использованием алгоритма SVM с SGD. Мы создадим сетку точек с использованием np.meshgrid, а затем вычислим функцию решения для каждой точки на сетке с использованием метода decision_function модели SVM. Затем мы построим границу решения с использованием plt.contour, а точки данных - с использованием plt.scatter.

## plot the line, the points, and the nearest vectors to the plane
xx = np.linspace(-1, 5, 10)
yy = np.linspace(-1, 5, 10)

X1, X2 = np.meshgrid(xx, yy)
Z = np.empty(X1.shape)
for (i, j), val in np.ndenumerate(X1):
    x1 = val
    x2 = X2[i, j]
    p = clf.decision_function([[x1, x2]])
    Z[i, j] = p[0]
levels = [-1.0, 0.0, 1.0]
linestyles = ["dashed", "solid", "dashed"]
colors = "k"
plt.contour(X1, X2, Z, levels, colors=colors, linestyles=linestyles)
plt.scatter(X[:, 0], X[:, 1], c=Y, cmap=plt.cm.Paired, edgecolor="black", s=20)

plt.axis("tight")
plt.show()

Резюме

В этом лабораторном занятии мы научились использовать метод опорных векторов (Support Vector Machines, SVM) с стохастическим градиентным спуском (Stochastic Gradient Descent, SGD) для классификации данных. Мы сгенерировали набор данных, подходящий для классификации, обучили модель SVM с использованием SGD и построили разделяющую гиперплоскость с максимальным отступом. SVM - это мощный алгоритм классификации, который широко используется в машинном обучении для классификации и анализа регрессии. Основная идея метода опорных векторов заключается в нахождении наилучшей разделяющей гиперплоскости, которая разделяет данные на классы с максимально возможным отступом. Стохастический градиентный спуск (SGD) - это алгоритм оптимизации, который используется для нахождения наилучших параметров для алгоритма SVM.