Einführung
In diesem Lab erfahren Sie, wie Sie eine halbüberwachte Klassifizierung auf einem Textdatensatz mit scikit-learn durchführen können. Halbüberwachtes Lernen ist eine Art maschinelles Lernen, bei dem ein Modell sowohl auf gelabelten als auch auf ungelabelten Daten trainiert wird. In diesem Lab wird erläutert, wie Sie die Algorithmen Self-Training und LabelSpreading für die halbüberwachte Textklassifizierung verwenden können. Wir werden den 20 newsgroups-Datensatz verwenden, um unsere Modelle zu trainieren und zu testen.
Tipps für die virtuelle Maschine (VM)
Nachdem die VM gestartet wurde, klicken Sie in der oberen linken Ecke auf die Registerkarte Notebook, um auf Jupyter Notebook für die Übung zuzugreifen.
Manchmal müssen Sie möglicherweise einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Aufgrund von Einschränkungen in Jupyter Notebook kann die Validierung von Vorgängen nicht automatisiert werden.
Wenn Sie während des Lernens Probleme haben, können Sie sich gerne an Labby wenden. Geben Sie uns nach der Sitzung Feedback, und wir werden das Problem umgehend für Sie beheben.