Boosted Decision Tree Regression

Machine LearningMachine LearningBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab verwenden wir die Scikit-Learn-Bibliothek von Python, um eine Boosted Decision Tree Regression auf einem eindimensionalen sinusförmigen Datensatz durchzuführen. Wir vergleichen die Leistung eines einzelnen Decision Tree Regressors mit der eines AdaBoost Regressors mit 300 Decision Tree Regressors als Basislehrern.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Vorbereitung der Daten

Wir beginnen mit der Vorbereitung von Dummy-Daten mit einer sinusförmigen Beziehung und etwas Gauß'scher Rauschen. Wir verwenden die linspace()-Funktion von Numpy, um ein eindimensionales Array mit 100 gleichmäßig verteilten Werten zwischen 0 und 6 zu erstellen. Anschließend verwenden wir das Attribut np.newaxis, um das eindimensionale Array in ein zweidimensionales Array der Form (100,1) umzuwandeln. Wir wenden die sin()-Funktion auf dieses Array an und addieren eine zweite Sinuswelle, die durch Multiplikation des Arrays mit 6 erhalten wird. Anschließend fügen wir mit der normal()-Funktion von Numpy etwas Gauß'sches Rauschen mit einem Mittelwert von 0 und einer Standardabweichung von 0,1 hinzu.

import numpy as np

rng = np.random.RandomState(1)
X = np.linspace(0, 6, 100)[:, np.newaxis]
y = np.sin(X).ravel() + np.sin(6 * X).ravel() + rng.normal(0, 0.1, X.shape[0])

Training und Vorhersage mit DecisionTree und AdaBoost Regressoren

Wir definieren jetzt die Klassifizierer und trainieren sie mit den Daten. Wir definieren den ersten Regressor als DecisionTreeRegressor mit max_depth=4. Wir definieren den zweiten Regressor als AdaBoostRegressor mit einem DecisionTreeRegressor von max_depth=4 als Basislehrer. Wir bauen den AdaBoost Regressor mit n_estimators=300 dieser Basislehrer. Anschließend trainieren wir beide Regressoren mit den Daten und machen Vorhersagen auf den gleichen Daten, um zu sehen, wie gut sie die Daten approximieren.

from sklearn.ensemble import AdaBoostRegressor
from sklearn.tree import DecisionTreeRegressor

regr_1 = DecisionTreeRegressor(max_depth=4)

regr_2 = AdaBoostRegressor(
    DecisionTreeRegressor(max_depth=4), n_estimators=300, random_state=rng
)

regr_1.fit(X, y)
regr_2.fit(X, y)

y_1 = regr_1.predict(X)
y_2 = regr_2.predict(X)

Darstellung der Ergebnisse

Schließlich stellen wir dar, wie gut unsere beiden Regressoren, der einzelne Decision Tree Regressor und der AdaBoost Regressor, die Daten approximieren können. Wir verwenden die scatter()-Funktion von Matplotlib, um die Trainingsdatenpunkte und die vorhergesagten Werte beider Regressoren zu plotten. Wir verwenden die plot()-Funktion von Matplotlib, um die vorhergesagten Werte gegen die Daten für beide Regressoren zu plotten. Wir fügen einer Legende hinzu, um zwischen den beiden Regressoren zu unterscheiden.

import matplotlib.pyplot as plt
import seaborn as sns

colors = sns.color_palette("colorblind")

plt.figure()
plt.scatter(X, y, color=colors[0], label="training samples")
plt.plot(X, y_1, color=colors[1], label="n_estimators=1", linewidth=2)
plt.plot(X, y_2, color=colors[2], label="n_estimators=300", linewidth=2)
plt.xlabel("data")
plt.ylabel("target")
plt.title("Boosted Decision Tree Regression")
plt.legend()
plt.show()

Zusammenfassung

In diesem Lab haben wir gelernt, wie man Boosted Decision Tree Regression auf einem eindimensionalen sinusförmigen Datensatz mit der Scikit-Learn-Bibliothek von Python durchführt. Wir haben die Leistung eines einzelnen Decision Tree Regressors mit der eines AdaBoost Regressors mit 300 Decision Tree Regressors als Basislehrern verglichen. Wir haben die Leistung beider Regressoren mit Matplotlib visualisiert.