主成分分析 | 鸢尾花数据集 | Python Scikit-Learn

简介

在本实验中，我们将使用 Python 的 scikit-learn 库对鸢尾花数据集进行主成分分析（PCA）。PCA 是一种用于降低数据集维度，同时尽可能保留其方差的技术。简单来说，它有助于识别数据集中最重要的特征，并舍弃不太重要的特征。鸢尾花数据集是机器学习领域中一个著名的数据集，包含了三种不同类型鸢尾花的物理属性信息。

虚拟机使用提示

虚拟机启动完成后，点击左上角切换到笔记本标签页，以访问 Jupyter Notebook 进行练习。

有时，你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制，操作验证无法自动化。

如果你在学习过程中遇到问题，随时向 Labby 提问。课程结束后提供反馈，我们会及时为你解决问题。

导入必要的库

我们将首先导入必要的库——numpy、matplotlib.pyplot、scikit-learn 的分解模块和数据集模块。

import numpy as np
import matplotlib.pyplot as plt
from sklearn import decomposition
from sklearn import datasets

加载数据集

接下来，我们将使用 scikit-learn 的 load_iris() 函数加载鸢尾花数据集。然后，我们将分离特征（X）和目标（y）变量。

iris = datasets.load_iris()
X = iris.data
y = iris.target

可视化数据集

在执行主成分分析（PCA）之前，让我们先用 matplotlib 在三维空间中可视化数据集。这将让我们了解不同类型的鸢尾花在数据集中是如何分布的。

fig = plt.figure(1, figsize=(4, 3))
plt.clf()
ax = fig.add_subplot(111, projection="3d", elev=48, azim=134)
ax.set_position([0, 0, 0.95, 1])
plt.cla()
for name, label in [("Setosa", 0), ("Versicolour", 1), ("Virginica", 2)]:
    ax.text3D(
        X[y == label, 0].mean(),
        X[y == label, 1].mean() + 1.5,
        X[y == label, 2].mean(),
        name,
        horizontalalignment="center",
        bbox=dict(alpha=0.5, edgecolor="w", facecolor="w"),
    )
y = np.choose(y, [1, 2, 0]).astype(float)
ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=y, cmap=plt.cm.nipy_spectral, edgecolor="k")
ax.xaxis.set_ticklabels([])
ax.yaxis.set_ticklabels([])
ax.zaxis.set_ticklabels([])
plt.show()

执行主成分分析（PCA）

既然我们已经对数据集进行了可视化，现在就让我们对其执行主成分分析。我们将为此使用 scikit-learn 的 PCA() 函数。我们将组件数量设置为 3，因为我们希望将数据集从 4 维（4 个特征）减少到 3 维。

pca = decomposition.PCA(n_components=3)
pca.fit(X)
X = pca.transform(X)

可视化降维后的数据集

最后，让我们使用 matplotlib 在三维空间中可视化降维后的数据集。我们将使用与步骤 3 中相同的代码，但这次我们将绘制降维后的数据集（X）而不是原始数据集。

fig = plt.figure(1, figsize=(4, 3))
plt.clf()
ax = fig.add_subplot(111, projection="3d", elev=48, azim=134)
ax.set_position([0, 0, 0.95, 1])
plt.cla()
for name, label in [("Setosa", 0), ("Versicolour", 1), ("Virginica", 2)]:
    ax.text3D(
        X[y == label, 0].mean(),
        X[y == label, 1].mean() + 1.5,
        X[y == label, 2].mean(),
        name,
        horizontalalignment="center",
        bbox=dict(alpha=0.5, edgecolor="w", facecolor="w"),
    )
y = np.choose(y, [1, 2, 0]).astype(float)
ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=y, cmap=plt.cm.nipy_spectral, edgecolor="k")
ax.xaxis.set_ticklabels([])
ax.yaxis.set_ticklabels([])
ax.zaxis.set_ticklabels([])
plt.show()

总结

在这个实验中，我们学习了如何使用 Python 的 scikit-learn 对鸢尾花数据集执行主成分分析（PCA）。我们加载了数据集，在三维空间中对其进行可视化，对其执行 PCA 以降低其维度，最后再次在三维空间中可视化降维后的数据集。PCA 是一种强大的技术，可用于许多应用程序中，以降低数据集的维度并识别最重要的特征。

鸢尾花数据集上的主成分分析

简介