Mehrfachausgaberegression mit Entscheidungsbaum

Machine LearningMachine LearningBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab führen wir Sie durch ein Beispiel der Mehrfachausgaberegression mit Entscheidungsbaum. Sie werden sehen, wie Entscheidungsbäume verwendet werden, um gleichzeitig die rauschenden x- und y-Beobachtungen eines Kreises anhand eines einzelnen zugrunde liegenden Merkmals vorherzusagen. Dadurch lernt es lokale lineare Regressionen, die den Kreis approximieren.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/tree("Decision Trees") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/tree -.-> lab-49322{{"Mehrfachausgaberegression mit Entscheidungsbaum"}} ml/sklearn -.-> lab-49322{{"Mehrfachausgaberegression mit Entscheidungsbaum"}} end

Bibliotheken importieren

In diesem Schritt importieren wir die erforderlichen Bibliotheken, nämlich numpy, matplotlib.pyplot und DecisionTreeRegressor aus sklearn.tree.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor

Erstellen eines zufälligen Datensatzes

In diesem Schritt werden wir einen zufälligen Datensatz erstellen. Wir werden die numpy-Bibliothek verwenden, um einen sortierten Array mit 100 Elementen zu erstellen, mit zufälligen Werten von 0 bis 200, und anschließend wird von jedem Element 100 subtrahiert. Dann werden wir numpy verwenden, um die Sinus- und Kosinuswerte jedes Elements zu berechnen und diese Arrays zu einem 2D-Array der Form (100, 2) zusammenzufügen, um das y-Array zu erstellen. Wir werden auch jedem fünften Element zufälliges Rauschen hinzufügen.

## Create a random dataset
rng = np.random.RandomState(1)
X = np.sort(200 * rng.rand(100, 1) - 100, axis=0)
y = np.array([np.pi * np.sin(X).ravel(), np.pi * np.cos(X).ravel()]).T
y[::5, :] += 0.5 - rng.rand(20, 2)

Regressionmodell anpassen

In diesem Schritt werden wir Regressionmodelle anpassen. Wir werden DecisionTreeRegressor aus sklearn.tree verwenden, um drei verschiedene Modelle mit unterschiedlichen maximalen Tiefen anzupassen.

## Fit regression model
regr_1 = DecisionTreeRegressor(max_depth=2)
regr_2 = DecisionTreeRegressor(max_depth=5)
regr_3 = DecisionTreeRegressor(max_depth=8)
regr_1.fit(X, y)
regr_2.fit(X, y)
regr_3.fit(X, y)

Vorhersagen

In diesem Schritt werden wir Vorhersagen mit den Modellen machen, die wir im vorherigen Schritt erstellt haben. Wir werden np.arange verwenden, um ein neues Array von Werten von -100 bis 100 mit einem Intervall von 0,01 zu erstellen, und anschließend werden wir die predict-Methode unserer Modelle verwenden, um die Ausgabe vorherzusagen.

## Predict
X_test = np.arange(-100.0, 100.0, 0.01)[:, np.newaxis]
y_1 = regr_1.predict(X_test)
y_2 = regr_2.predict(X_test)
y_3 = regr_3.predict(X_test)

Ergebnisse plotten

In diesem Schritt werden wir die Ergebnisse plotten. Wir werden matplotlib.pyplot verwenden, um einen Streudiagramm der ursprünglichen Daten und jeder der drei Modell-Vorhersagen zu erstellen. Wir werden auch Beschriftungen und einen Titel zum Plot hinzufügen.

## Plot the results
plt.figure()
s = 25
plt.scatter(y[:, 0], y[:, 1], c="navy", s=s, edgecolor="black", label="data")
plt.scatter(
    y_1[:, 0],
    y_1[:, 1],
    c="cornflowerblue",
    s=s,
    edgecolor="black",
    label="max_depth=2",
)
plt.scatter(y_2[:, 0], y_2[:, 1], c="red", s=s, edgecolor="black", label="max_depth=5")
plt.scatter(
    y_3[:, 0], y_3[:, 1], c="orange", s=s, edgecolor="black", label="max_depth=8"
)
plt.xlim([-6, 6])
plt.ylim([-6, 6])
plt.xlabel("target 1")
plt.ylabel("target 2")
plt.title("Multi-output Decision Tree Regression")
plt.legend(loc="best")
plt.show()

Zusammenfassung

In diesem Lab haben wir gelernt, wie man Entscheidungsbäume für die Mehrfachausgaberegression verwendet. Wir haben einen zufälligen Datensatz erstellt, Regressionmodelle angepasst, Vorhersagen getroffen und die Ergebnisse geplottet. Die Entscheidungsbäume haben lokale lineare Regressionen gelernt, die den Kreis approximieren. Wir haben auch gesehen, dass, wenn die maximale Tiefe des Baumes zu hoch eingestellt wird, die Entscheidungsbäume zu viele Details der Trainingsdaten lernen und von Rauschen lernen, d.h. sie überanpassen.