소개
이 실습에서는 20 개 뉴스그룹 데이터셋에서 스펙트럴 공동 군집화 알고리즘을 사용하여 문서를 이분류 (bicluster) 합니다. 이 데이터셋은 20 개의 문서 카테고리를 가지고 있으며, "comp.os.ms-windows.misc" 카테고리는 데이터가 없는 게시물을 포함하고 있기 때문에 제외합니다. TF-IDF 벡터화된 게시물은 단어 빈도 행렬을 구성하며, 이 행렬은 Dhillon 의 스펙트럴 공동 군집화 알고리즘을 사용하여 이분류됩니다. 결과적인 문서 - 단어 이분류는 해당 문서 하위 집합에서 더 자주 사용되는 단어의 하위 집합을 나타냅니다. 비교를 위해 MiniBatchKMeans 를 사용하여 문서를 클러스터링할 것입니다.
VM 팁
VM 시작이 완료되면 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 연습을 위한 Jupyter Notebook에 접근합니다.
때때로 Jupyter Notebook 이 완전히 로드되기까지 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사는 자동화될 수 없습니다.
학습 중 문제가 발생하면 Labby 에 문의하십시오. 세션 후 피드백을 제공하면 문제를 신속하게 해결해 드리겠습니다.