简介
本实验提供了一个示例,展示如何使用 scikit-learn 通过核外学习进行文本分类。目标是从无法装入主内存的数据中进行学习。为实现这一目标,我们使用了一个支持 partial_fit 方法的在线分类器,该分类器将分批接收示例数据。为确保特征空间随时间保持不变,我们利用了一个哈希向量化器(HashingVectorizer),它会将每个示例投影到相同的特征空间中。这在文本分类中特别有用,因为每一批数据中可能会出现新的特征(单词)。
虚拟机使用提示
虚拟机启动完成后,点击左上角切换到“笔记本”标签页,以访问 Jupyter Notebook 进行练习。
有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。
如果你在学习过程中遇到问题,可以随时向 Labby 提问。课程结束后请提供反馈,我们会及时为你解决问题。
Skills Graph
%%%%{init: {'theme':'neutral'}}%%%%
flowchart RL
sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"])
sklearn(("Sklearn")) -.-> sklearn/DataPreprocessingandFeatureEngineeringGroup(["Data Preprocessing and Feature Engineering"])
sklearn(("Sklearn")) -.-> sklearn/UtilitiesandDatasetsGroup(["Utilities and Datasets"])
ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"])
sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/linear_model("Linear Models")
sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/naive_bayes("Naive Bayes")
sklearn/DataPreprocessingandFeatureEngineeringGroup -.-> sklearn/feature_extraction("Feature Extraction")
sklearn/UtilitiesandDatasetsGroup -.-> sklearn/datasets("Datasets")
ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn")
subgraph Lab Skills
sklearn/linear_model -.-> lab-49235{{"使用核外学习进行文本分类"}}
sklearn/naive_bayes -.-> lab-49235{{"使用核外学习进行文本分类"}}
sklearn/feature_extraction -.-> lab-49235{{"使用核外学习进行文本分类"}}
sklearn/datasets -.-> lab-49235{{"使用核外学习进行文本分类"}}
ml/sklearn -.-> lab-49235{{"使用核外学习进行文本分类"}}
end