Классификация с помощью гауссовского процесса на наборе данных Iris

Machine LearningMachine LearningBeginner
Практиковаться сейчас

This tutorial is from open-source community. Access the source code

💡 Этот учебник переведен с английского с помощью ИИ. Чтобы просмотреть оригинал, вы можете перейти на английский оригинал

Введение

В этом лабораторном занятии мы изучим, как использовать классификацию гауссовым процессом (GPC) на наборе данных Iris. Набор данных Iris - это известный набор данных, содержащий информацию о длине и ширине чашелистика и лепестка трех разных видов ирисных цветов. Мы будем использовать scikit-learn для реализации GPC, которая представляет собой вероятностный подход к задачам классификации.

Советы по работе с ВМ

После запуска ВМ перейдите в левый верхний угол и переключитесь на вкладку Notebook, чтобы получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь задавать вопросы Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/gaussian_process("Gaussian Processes") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/gaussian_process -.-> lab-49140{{"Классификация с помощью гауссовского процесса на наборе данных Iris"}} ml/sklearn -.-> lab-49140{{"Классификация с помощью гауссовского процесса на наборе данных Iris"}} end

Импорт необходимых библиотек и набора данных

Сначала мы импортируем необходимые библиотеки и загружаем набор данных Iris из scikit-learn.

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.gaussian_process.kernels import RBF

iris = datasets.load_iris()
X = iris.data[:, :2]  ## мы берем только первые два признака.
y = np.array(iris.target, dtype=int)

Определение функции ядра

Далее мы определим функцию ядра. В этом примере мы будем использовать ядро радиальной базисной функции (RBF). Мы определим две версии ядра RBF: изотропную и анизотропную.

kernel = 1.0 * RBF([1.0])
gpc_rbf_isotropic = GaussianProcessClassifier(kernel=kernel).fit(X, y)

kernel = 1.0 * RBF([1.0, 1.0])
gpc_rbf_anisotropic = GaussianProcessClassifier(kernel=kernel).fit(X, y)

Создание сетки для построения графиков

Теперь мы создадим сетку для построения графиков. Сетка будет использоваться для построения предсказанных вероятностей для каждой точки на сетке. Мы также определим шаг сетки.

h = 0.02  ## шаг сетки

x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

Построение графиков предсказанных вероятностей

Теперь мы построим графики предсказанных вероятностей для каждой точки на сетке. Мы создадим два подграфика: один для изотропного ядра RBF, а другой для анизотропного ядра RBF. Мы будем использовать метод predict_proba, чтобы получить предсказанные вероятности для каждой точки на сетке. Затем мы построим графики предсказанных вероятностей в виде цветового графика на сетке. Мы также построим точки обучения для каждого вида ирисных цветов.

titles = ["Isotropic RBF", "Anisotropic RBF"]
plt.figure(figsize=(10, 5))
for i, clf in enumerate((gpc_rbf_isotropic, gpc_rbf_anisotropic)):
    ## Plot the predicted probabilities. For that, we will assign a color to
    ## each point in the mesh [x_min, m_max]x[y_min, y_max].
    plt.subplot(1, 2, i + 1)

    Z = clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])

    ## Put the result into a color plot
    Z = Z.reshape((xx.shape[0], xx.shape[1], 3))
    plt.imshow(Z, extent=(x_min, x_max, y_min, y_max), origin="lower")

    ## Plot also the training points
    plt.scatter(X[:, 0], X[:, 1], c=np.array(["r", "g", "b"])[y], edgecolors=(0, 0, 0))
    plt.xlabel("Sepal length")
    plt.ylabel("Sepal width")
    plt.xlim(xx.min(), xx.max())
    plt.ylim(yy.min(), yy.max())
    plt.xticks(())
    plt.yticks(())
    plt.title(
        "%s, LML: %.3f" % (titles[i], clf.log_marginal_likelihood(clf.kernel_.theta))
    )

plt.tight_layout()
plt.show()

Резюме

В этом практическом занятии мы изучили, как использовать классификацию с помощью гауссовского процесса (Gaussian Process Classification, GPC) на наборе данных Iris с использованием scikit-learn. Мы определили две версии ядра радиальной базисной функции (Radial Basis Function, RBF): изотропную и анизотропную. Затем мы создали сетку для построения графиков предсказанных вероятностей для каждой точки на сетке и построили графики предсказанных вероятностей в виде цветового графика на сетке. Наконец, мы построили точки обучения для каждого вида ирисных цветов.