はじめに
この実験では、20つのニュースグループのデータセットに対してスペクトラル共クラスタリングアルゴリズムを使用して、文書を二部クラスタリングします。このデータセットには20種類の文書があり、データが含まれていない投稿が含まれているため、「comp.os.ms-windows.misc」カテゴリを除外します。TF-IDFベクトル化された投稿は単語頻度行列を形成し、その後、Dhillonのスペクトラル共クラスタリングアルゴリズムを使用して二部クラスタリングされます。得られた文書-単語の二部クラスタは、それらの文書のサブセットでより頻繁に使用される単語のサブセットを示します。比較のために、MiniBatchKMeansを使用して文書をクラスタリングすることも行います。
VMのヒント
VMの起動が完了したら、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebookを使用して練習します。
時々、Jupyter Notebookが読み込み終了するまで数秒待つ必要がある場合があります。Jupyter Notebookの制限により、操作の検証を自動化することはできません。
学習中に問題が発生した場合は、Labbyにお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。