简介
在本实验中,我们将使用 Python 中的 scikit-learn 库探索 K 均值聚类算法。我们将使用手写数字数据集,该数据集包含 64 个特征,代表一个数字的 8x8 图像,并且我们将尝试根据它们所代表的数字将图像分组在一起。我们将比较 K 均值的不同初始化方法,并使用各种指标评估聚类的性能。
虚拟机提示
虚拟机启动完成后,点击左上角切换到“笔记本”标签以访问 Jupyter Notebook 进行练习。
有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作的验证无法自动化。
如果你在学习过程中遇到问题,请随时向 Labby 提问。课程结束后提供反馈,我们将立即为你解决问题。
Skills Graph
%%%%{init: {'theme':'neutral'}}%%%%
flowchart RL
sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"])
sklearn(("Sklearn")) -.-> sklearn/DataPreprocessingandFeatureEngineeringGroup(["Data Preprocessing and Feature Engineering"])
sklearn(("Sklearn")) -.-> sklearn/AdvancedDataAnalysisandDimensionalityReductionGroup(["Advanced Data Analysis and Dimensionality Reduction"])
sklearn(("Sklearn")) -.-> sklearn/UtilitiesandDatasetsGroup(["Utilities and Datasets"])
ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"])
sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/cluster("Clustering")
sklearn/DataPreprocessingandFeatureEngineeringGroup -.-> sklearn/preprocessing("Preprocessing and Normalization")
sklearn/DataPreprocessingandFeatureEngineeringGroup -.-> sklearn/pipeline("Pipeline")
sklearn/AdvancedDataAnalysisandDimensionalityReductionGroup -.-> sklearn/decomposition("Matrix Decomposition")
sklearn/UtilitiesandDatasetsGroup -.-> sklearn/datasets("Datasets")
ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn")
subgraph Lab Skills
sklearn/cluster -.-> lab-49180{{"手写数字的 K 均值聚类"}}
sklearn/preprocessing -.-> lab-49180{{"手写数字的 K 均值聚类"}}
sklearn/pipeline -.-> lab-49180{{"手写数字的 K 均值聚类"}}
sklearn/decomposition -.-> lab-49180{{"手写数字的 K 均值聚类"}}
sklearn/datasets -.-> lab-49180{{"手写数字的 K 均值聚类"}}
ml/sklearn -.-> lab-49180{{"手写数字的 K 均值聚类"}}
end