Руководство по использованию SVM Kernel для классификации данных

Введение

В этом практическом занятии представлен пошаговый гайд по использованию SVM-Кернелей для классификации точек данных. SVM-Кернели особенно полезны, когда точки данных не линейно разделимы. Для выполнения этой задачи мы будем использовать Python scikit-learn.

Советы по работе с ВМ

После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импортируем библиотеки

В этом шаге мы импортируем необходимые библиотеки для выполнения задачи классификации.

import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm

Создаем набор данных и целевые переменные

В этом шаге мы создадим набор данных и целевые переменные для нашей задачи классификации. Для создания набора данных и целевых переменных мы будем использовать библиотеку numpy.

X = np.c_[
    (0.4, -0.7),
    (-1.5, -1),
    (-1.4, -0.9),
    (-1.3, -1.2),
    (-1.1, -0.2),
    (-1.2, -0.4),
    (-0.5, 1.2),
    (-1.5, 2.1),
    (1, 1),
    ## --
    (1.3, 0.8),
    (1.2, 0.5),
    (0.2, -2),
    (0.5, -2.4),
    (0.2, -2.3),
    (0, -2.7),
    (1.3, 2.1),
].T
Y = [0] * 8 + [1] * 8

Создаем модель

В этом шаге мы создадим модель SVM-Кernel с тремя различными ядрами: линейным, полиномиальным и радиальной базисной функцией (RBF). Линейное ядро используется для линейно разделимых точек данных, в то время как полиномиальное и RBF ядра полезны для нелинейно разделимых точек данных.

## fit the model
for kernel in ("linear", "poly", "rbf"):
    clf = svm.SVC(kernel=kernel, gamma=2)
    clf.fit(X, Y)

Визуализируем модель

В этом шаге мы визуализируем модель SVM-Кernel, изобразив прямую, точки и ближайшие векторы к плоскости.

    ## plot the line, the points, and the nearest vectors to the plane
    plt.figure(fignum, figsize=(4, 3))
    plt.clf()

    plt.scatter(
        clf.support_vectors_[:, 0],
        clf.support_vectors_[:, 1],
        s=80,
        facecolors="none",
        zorder=10,
        edgecolors="k",
    )
    plt.scatter(X[:, 0], X[:, 1], c=Y, zorder=10, cmap=plt.cm.Paired, edgecolors="k")

    plt.axis("tight")
    x_min = -3
    x_max = 3
    y_min = -3
    y_max = 3

    XX, YY = np.mgrid[x_min:x_max:200j, y_min:y_max:200j]
    Z = clf.decision_function(np.c_[XX.ravel(), YY.ravel()])

    ## Put the result into a color plot
    Z = Z.reshape(XX.shape)
    plt.figure(fignum, figsize=(4, 3))
    plt.pcolormesh(XX, YY, Z > 0, cmap=plt.cm.Paired)
    plt.contour(
        XX,
        YY,
        Z,
        colors=["k", "k", "k"],
        linestyles=["--", "-", "--"],
        levels=[-0.5, 0, 0.5],
    )

    plt.xlim(x_min, x_max)
    plt.ylim(y_min, y_max)

    plt.xticks(())
    plt.yticks(())
    fignum = fignum + 1
plt.show()

Резюме

В этом практическом занятии мы научились использовать SVM-Кernel для классификации точек данных. Мы создали набор данных и целевые переменные, создали модель SVM-Кernel с тремя различными ядрами и визуализировали модель. SVM-Кernel особенно полезны, когда точки данных не линейно разделимы.

Классификация данных с использованием SVM Kernel