鸢尾花数据集上的高斯过程分类

Beginner

This tutorial is from open-source community. Access the source code

简介

在本实验中,我们将探索如何在鸢尾花数据集上使用高斯过程分类(GPC)。鸢尾花数据集是一个著名的数据集,它包含了三种不同鸢尾花的萼片和花瓣的长度与宽度信息。我们将使用 scikit-learn 来实现 GPC,这是一种用于分类任务的概率方法。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到“笔记本”标签页,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,随时向 Labby 提问。课程结束后提供反馈,我们会及时为你解决问题。

导入必要的库和数据集

首先,我们将导入必要的库,并从 scikit-learn 中加载鸢尾花数据集。

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.gaussian_process.kernels import RBF

iris = datasets.load_iris()
X = iris.data[:, :2]  ## 我们只取前两个特征。
y = np.array(iris.target, dtype=int)

定义核函数

接下来,我们将定义核函数。在这个例子中,我们将使用径向基函数(RBF)核。我们将定义 RBF 核的两个版本:各向同性版本和各向异性版本。

kernel = 1.0 * RBF([1.0])
gpc_rbf_isotropic = GaussianProcessClassifier(kernel=kernel).fit(X, y)

kernel = 1.0 * RBF([1.0, 1.0])
gpc_rbf_anisotropic = GaussianProcessClassifier(kernel=kernel).fit(X, y)

创建用于绘图的网格

现在,我们将创建一个用于绘图的网格。该网格将用于绘制网格上每个点的预测概率。我们还将定义网格的步长。

h = 0.02  ## 网格中的步长

x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

绘制预测概率

现在,我们将绘制网格上每个点的预测概率。我们将创建两个子图:一个用于各向同性 RBF 核,另一个用于各向异性 RBF 核。我们将使用predict_proba方法来获取网格上每个点的预测概率。然后,我们将预测概率作为彩色图绘制在网格上。我们还将绘制每种鸢尾花的训练点。

titles = ["Isotropic RBF", "Anisotropic RBF"]
plt.figure(figsize=(10, 5))
for i, clf in enumerate((gpc_rbf_isotropic, gpc_rbf_anisotropic)):
    ## 绘制预测概率。为此,我们将为网格 [x_min, m_max]x[y_min, y_max] 中的每个点分配一种颜色。
    plt.subplot(1, 2, i + 1)

    Z = clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])

    ## 将结果放入彩色图中
    Z = Z.reshape((xx.shape[0], xx.shape[1], 3))
    plt.imshow(Z, extent=(x_min, x_max, y_min, y_max), origin="lower")

    ## 也绘制训练点
    plt.scatter(X[:, 0], X[:, 1], c=np.array(["r", "g", "b"])[y], edgecolors=(0, 0, 0))
    plt.xlabel("Sepal length")
    plt.ylabel("Sepal width")
    plt.xlim(xx.min(), xx.max())
    plt.ylim(yy.min(), yy.max())
    plt.xticks(())
    plt.yticks(())
    plt.title(
        "%s, LML: %.3f" % (titles[i], clf.log_marginal_likelihood(clf.kernel_.theta))
    )

plt.tight_layout()
plt.show()

总结

在这个实验中,我们探索了如何使用 scikit-learn 在鸢尾花数据集上进行高斯过程分类(GPC)。我们定义了径向基函数(RBF)核的两个版本,一个各向同性版本和一个各向异性版本。然后,我们创建了一个网格来绘制网格上每个点的预测概率,并将预测概率作为彩色图绘制在网格上。最后,我们绘制了每种鸢尾花的训练点。