Feature Extraction mit Scikit-Learn

Machine LearningMachine LearningBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab werden wir lernen, wie man die Feature Extraktion mit der scikit-learn-Bibliothek durchführt. Die Feature Extraktion ist der Prozess, um Rohdaten in numerische Features umzuwandeln, die von Machine Learning-Algorithmen verwendet werden können. Dabei wird relevant Information aus verschiedenen Datentypen wie Text und Bilder extrahiert.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Operationen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie während des Lernens Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Laden von Features aus Dictionaries

In diesem Schritt werden wir lernen, wie man Features aus Dictionaries mit der Klasse DictVectorizer in scikit-learn lädt.

from sklearn.feature_extraction import DictVectorizer

measurements = [
    {'city': 'Dubai', 'temperature': 33.},
    {'city': 'London', 'temperature': 12.},
    {'city': 'San Francisco', 'temperature': 18.},
]

vec = DictVectorizer()
features = vec.fit_transform(measurements).toarray()
feature_names = vec.get_feature_names_out()

print(features)
print(feature_names)

Feature Hashing

In diesem Schritt werden wir lernen, wie man Feature Hashing mit der Klasse FeatureHasher in scikit-learn durchführt. Feature Hashing ist eine Technik, die Features mithilfe einer Hash-Funktion auf einen Vektor fester Länge abbildet.

from sklearn.feature_extraction import FeatureHasher

movies = [
    {'category': ['thriller', 'drama'], 'year': 2003},
    {'category': ['animation', 'family'], 'year': 2011},
    {'year': 1974},
]

hasher = FeatureHasher(input_type='string')
hashed_features = hasher.transform(movies).toarray()

print(hashed_features)

Text-Feature-Extraktion

In diesem Schritt werden wir lernen, wie man die Text-Feature-Extraktion mit den Klassen CountVectorizer und TfidfVectorizer in scikit-learn durchführt. Diese Klassen können verwendet werden, um Text-Daten in numerische Features umzuwandeln.

from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
]

vectorizer = CountVectorizer()
features = vectorizer.fit_transform(corpus).toarray()
feature_names = vectorizer.get_feature_names_out()

print(features)
print(feature_names)

Anpassen der Vektorizer-Klassen

In diesem Schritt werden wir lernen, wie man das Verhalten von Vektorizer-Klassen anpasst, indem man aufrufbar Funktionen an sie übergibt.

def my_tokenizer(s):
    return s.split()

vectorizer = CountVectorizer(tokenizer=my_tokenizer)
features = vectorizer.fit_transform(corpus).toarray()

print(features)

Zusammenfassung

In diesem Lab haben wir gelernt, wie man die Feature-Extraktion mit der scikit-learn-Bibliothek durchführt. Wir haben verschiedene Techniken wie das Laden von Features aus Dictionaries, Feature Hashing und die Text-Feature-Extraktion untersucht. Wir haben auch gelernt, wie man das Verhalten von Vektorizer-Klassen anpasst, um unseren spezifischen Anforderungen zu entsprechen. Die Feature-Extraktion ist ein wichtiger Schritt in der Maschinellen Lernung, da sie hilft, Rohdaten in ein Format zu transformieren, das von Algorithmen zur Vorhersage oder Klassifizierung von Daten verwendet werden kann.