使用 Scikit-Learn 进行 K-Means++ 聚类

Machine LearningMachine LearningBeginner
立即练习

This tutorial is from open-source community. Access the source code

💡 本教程由 AI 辅助翻译自英文原版。如需查看原文,您可以 切换至英文原版

简介

在本实验中,我们将学习如何使用 Python 中的 scikit-learn 库进行 K-Means++ 初始化。K-Means++ 是一种流行的算法,用于根据相似性将数据聚类成组。它被用作 k-means 的默认初始化方法。在本实验中,我们将生成样本数据,从 K-Means++ 计算种子,并将初始化种子与样本数据一起绘制出来。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到“笔记本”标签,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,随时向 Labby 提问。课程结束后提供反馈,我们将立即为你解决问题。


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills ml/sklearn -.-> lab-49181{{"使用 Scikit-Learn 进行 K-Means++ 聚类"}} end

生成样本数据

我们将使用 scikit-learn 库的 make_blobs 函数来生成样本数据。此函数生成用于聚类的各向同性高斯数据点集。我们将生成 4000 个样本,有 4 个聚类中心。

## 生成样本数据
n_samples = 4000
n_components = 4

X, y_true = make_blobs(
    n_samples=n_samples, centers=n_components, cluster_std=0.60, random_state=0
)
X = X[:, ::-1]

从 K-Means++ 计算种子

我们将使用 scikit-learn 库的 kmeans_plusplus 函数从 K-Means++ 计算种子。此函数返回用于 K-Means 聚类的初始聚类中心。我们将使用 K-Means++ 计算 4 个聚类。

## 从 K-Means++ 计算种子
centers_init, indices = kmeans_plusplus(X, n_clusters=4, random_state=0)

将初始化种子与样本数据一起绘制

我们将使用 matplotlib 库把初始化种子与样本数据一起绘制出来。初始化种子将显示为蓝色点,样本数据将显示为彩色点。

## 将初始化种子与样本数据一起绘制
plt.figure(1)
colors = ["#4EACC5", "#FF9C34", "#4E9A06", "m"]

for k, col in enumerate(colors):
    cluster_data = y_true == k
    plt.scatter(X[cluster_data, 0], X[cluster_data, 1], c=col, marker=".", s=10)

plt.scatter(centers_init[:, 0], centers_init[:, 1], c="b", s=50)
plt.title("K-Means++ Initialization")
plt.xticks([])
plt.yticks([])
plt.show()

总结

在本实验中,我们学习了如何使用 Python 中的 scikit-learn 库进行 K-Means++ 初始化。我们生成了样本数据,从 K-Means++ 计算了种子,并将初始化种子与样本数据一起绘制了出来。K-Means++ 是一种流行的算法,用于根据相似性将数据聚类成组,它被用作 k-means 的默认初始化方法。