Text-Daten mit Scikit-Learn erkunden

Einführung

In diesem Lab werden wir untersuchen, wie man mit Text-Daten mithilfe von scikit-learn, einer beliebten Machine-Learning-Bibliothek in Python, umgeht. Wir werden lernen, wie man Text-Daten lädt, sie vorverarbeitet, Merkmale extrahiert, ein Modell trainiert und dessen Leistung 计算 t.

VM-Tipps

Nachdem die VM gestartet ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Laden der Text-Daten

Zunächst müssen wir die Text-Daten laden, mit denen wir arbeiten werden. Wir werden den 20 Newsgroups-Datensatz verwenden, der Nachrichtenartikel zu zwanzig verschiedenen Themen enthält. Um den Datensatz zu laden, können wir die Funktion fetch_20newsgroups aus scikit-learn verwenden.

from sklearn.datasets import fetch_20newsgroups

## Lade den Datensatz
categories = ['alt.atheism','soc.religion.christian', 'comp.graphics','sci.med']
twenty_train = fetch_20newsgroups(subset='train', categories=categories, shuffle=True, random_state=42)

Jetzt haben wir die Daten geladen, und wir können ihre Struktur und Inhalt untersuchen.

Vorverarbeiten der Text-Daten

Bevor wir die Text-Daten für das maschinelle Lernen verwenden können, müssen wir sie vorverarbeiten. Dies umfasst mehrere Schritte, wie das Entfernen von Satzzeichen, das Konvertieren aller Texte in Kleinbuchstaben und das Tokenisieren des Texts in einzelne Wörter. Wir können diese Vorverarbeitungsschritte mit Hilfe von CountVectorizer und TfidfTransformer aus scikit-learn ausführen.

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer

## Vorverarbeiten der Text-Daten
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(twenty_train.data)

tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)

Jetzt sind unsere Text-Daten vorverarbeitet und bereit für die Merkmalsextraktion.

Merkmalsextraktion

Um die Text-Daten als Merkmalsvektoren zu repräsentieren, können wir die Bag-of-Words-Repräsentation verwenden. Diese Repräsentation weist jeder einzelnen Wörter im Trainingssatz eine feste ganzzahlige ID zu und zählt die Anzahl der Vorkommen jedes Worts in jedem Dokument. Wir können diese Merkmalsvektoren mit Hilfe von CountVectorizer aus scikit-learn extrahieren.

from sklearn.feature_extraction.text import CountVectorizer

## Extrahiere Merkmalsvektoren
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(twenty_train.data)

Jetzt haben wir die Merkmalsvektoren extrahiert, und wir können sie verwenden, um unser Modell zu trainieren.

Training des Modells

Jetzt, nachdem wir unsere Merkmalsvektoren haben, können wir ein Modell trainieren, um die Text-Daten zu klassifizieren. In diesem Beispiel werden wir den Multinomial Naive Bayes-Algorithmus verwenden, der ein populärer Algorithmus für die Textklassifizierung ist.

from sklearn.naive_bayes import MultinomialNB

## Trainiere das Modell
clf = MultinomialNB().fit(X_train_tfidf, twenty_train.target)

Jetzt ist unser Modell trainiert und bereit für Vorhersagen.

Auswerten des Modells

Um die Leistung unseres Modells zu evaluieren, können wir einen separaten Testdatensatz verwenden. Wir können den Testdatensatz mit dem gleichen Verfahren wie den Trainingsdatensatz laden.

twenty_test = fetch_20newsgroups(subset='test', categories=categories, shuffle=True, random_state=42)

Jetzt können wir den Testdatensatz vorverarbeiten und die Merkmalsvektoren extrahieren.

X_test_counts = count_vect.transform(twenty_test.data)
X_test_tfidf = tfidf_transformer.transform(X_test_counts)

Schließlich können wir unser trainiertes Modell verwenden, um Vorhersagen für den Testdatensatz zu machen und die Genauigkeit zu berechnen.

predicted = clf.predict(X_test_tfidf)
accuracy = np.mean(predicted == twenty_test.target)

Zusammenfassung

In diesem Lab haben wir gelernt, wie man mit Text-Daten mit scikit-learn umgehen kann. Wir haben die Text-Daten geladen, sie vorverarbeitet, Merkmalsvektoren extrahiert, ein Modell trainiert und seine Leistung ausgewertet. Das Arbeiten mit Text-Daten kann herausfordernd sein, aber scikit-learn bietet leistungsstarke Tools und Algorithmen, um den Prozess einfacher zu gestalten.