简介
在本实验中,我们将对20个新闻组数据集使用谱共聚类(Spectral Co-clustering)算法对文档进行双聚类。该数据集包含20类文档,我们将排除“comp.os.ms-windows.misc”类别,因为其中包含无数据的帖子。经TF-IDF矢量化后的帖子形成一个词频矩阵,然后使用迪隆(Dhillon)的谱共聚类算法对其进行双聚类。得到的文档-词双聚类表示在那些文档子集中更常使用的词的子集。我们还将使用MiniBatchKMeans对文档进行聚类以作比较。
虚拟机使用提示
虚拟机启动完成后,点击左上角切换到“笔记本”(Notebook)标签页,以访问Jupyter Notebook进行练习。
有时,你可能需要等待几秒钟让Jupyter Notebook完成加载。由于Jupyter Notebook的限制,操作验证无法自动化。
如果你在学习过程中遇到问题,随时向Labby提问。课程结束后提供反馈,我们将迅速为你解决问题。