Scikit-Learn Schätzer und Pipelines

Machine LearningMachine LearningBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab werden wir verschiedene Möglichkeiten kennenlernen, Schätzer und Pipelines mit scikit-learn anzuzeigen. Schätzer und Pipelines sind ein wesentlicher Teil des scikit-learn-Pakets und ermöglichen es uns, maschinelle Lernmodelle zu erstellen und zu evaluieren.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Kompakte Textrepräsentation

Die erste Möglichkeit, Schätzer anzuzeigen, besteht darin, eine kompakte Textrepräsentation zu verwenden. Wenn Schätzer als Zeichenfolge dargestellt werden, werden nur die Parameter angezeigt, die auf nicht-Standardwerte festgelegt wurden. Dadurch wird das visuelle Rauschen reduziert und es ist einfacher, die Unterschiede zu erkennen, wenn Instanzen verglichen werden.

from sklearn.linear_model import LogisticRegression

## Erstellen einer Instanz von Logistic Regression mit l1-Strafe
lr = LogisticRegression(penalty="l1")

## Anzeige des Schätzers
print(lr)

Reiche HTML-Repräsentation

Die zweite Möglichkeit, Schätzer anzuzeigen, besteht darin, eine reiche HTML-Repräsentation zu verwenden. In Notebooks werden Schätzer und Pipelines eine reiche HTML-Repräsentation verwenden. Dies ist besonders nützlich, um die Struktur von Pipelines und anderen zusammengesetzten Schätzern zu zusammenfassen, mit Interaktivität, um Details bereitzustellen.

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.compose import make_column_transformer
from sklearn.linear_model import LogisticRegression

## Erstellen von Pipelines für numerische und kategorische Daten
num_proc = make_pipeline(SimpleImputer(strategy="median"), StandardScaler())
cat_proc = make_pipeline(
    SimpleImputer(strategy="constant", fill_value="missing"),
    OneHotEncoder(handle_unknown="ignore"),
)

## Erstellen eines Vorverarbeiters, der die numerischen und kategorischen Pipelines auf bestimmte Spalten anwendet
preprocessor = make_column_transformer(
    (num_proc, ("feat1", "feat3")), (cat_proc, ("feat0", "feat2"))
)

## Erstellen einer Pipeline, die den Vorverarbeiter und die logistische Regression anwendet
clf = make_pipeline(preprocessor, LogisticRegression())

## Anzeige der Pipeline
clf

Zusammenfassung

In diesem Lab haben wir zwei Möglichkeiten kennengelernt, Schätzer und Pipelines mit scikit-learn anzuzeigen: die kompakte Textrepräsentation und die reiche HTML-Repräsentation. Diese Repräsentationen können hilfreich sein, um die Struktur von Pipelines und anderen zusammengesetzten Schätzern zu zusammenfassen und um verschiedene Instanzen zu vergleichen. Indem wir diese Techniken verwenden, können wir unser Verständnis von maschinellen Lernmodellen und deren Leistung verbessern.