Einführung
In diesem Lab werden wir lernen, wie man den LassoLarsIC-Schätzer verwendet, um das beste Lasso-Modell unter Verwendung von AIC- und BIC-Kriterien auszuwählen. Wir werden den Diabetes-Datensatz aus scikit-learn verwenden.
Tipps für die VM
Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.
Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen in Jupyter Notebook nicht automatisiert werden.
Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.
Daten laden
Wir werden den Diabetes-Datensatz aus scikit-learn mit der load_diabetes-Methode laden.
from sklearn.datasets import load_diabetes
X, y = load_diabetes(return_X_y=True, as_frame=True)
Daten vorverarbeiten
Wir werden den Datensatz mit der StandardScaler-Methode skalieren und den LassoLarsIC-Schätzer mit dem AIC-Kriterium anpassen.
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LassoLarsIC
from sklearn.pipeline import make_pipeline
lasso_lars_ic = make_pipeline(StandardScaler(), LassoLarsIC(criterion="aic")).fit(X, y)
AIC und BIC skalieren
Wir müssen den AIC und den BIC so skalieren, dass sie der Definition in [ZHT2007]_. entsprechen.
def zou_et_al_criterion_rescaling(criterion, n_samples, noise_variance):
"""Rescale the information criterion to follow the definition of Zou et al."""
return criterion - n_samples * np.log(2 * np.pi * noise_variance) - n_samples
aic_criterion = zou_et_al_criterion_rescaling(
lasso_lars_ic[-1].criterion_,
n_samples,
lasso_lars_ic[-1].noise_variance_,
)
index_alpha_path_aic = np.flatnonzero(
lasso_lars_ic[-1].alphas_ == lasso_lars_ic[-1].alpha_
)[0]
LassoLarsIC-Schätzer mit BIC-Kriterium anpassen
Wir werden nun den LassoLarsIC-Schätzer mit dem BIC-Kriterium anpassen.
lasso_lars_ic.set_params(lassolarsic__criterion="bic").fit(X, y)
bic_criterion = zou_et_al_criterion_rescaling(
lasso_lars_ic[-1].criterion_,
n_samples,
lasso_lars_ic[-1].noise_variance_,
)
index_alpha_path_bic = np.flatnonzero(
lasso_lars_ic[-1].alphas_ == lasso_lars_ic[-1].alpha_
)[0]
AIC und BIC-Kriterium plotten
Wir werden das AIC- und BIC-Kriterium sowie den darauffolgend ausgewählten Regularisierungsparameter plotten.
plt.plot(aic_criterion, color="tab:blue", marker="o", label="AIC criterion")
plt.plot(bic_criterion, color="tab:orange", marker="o", label="BIC criterion")
plt.vlines(
index_alpha_path_bic,
aic_criterion.min(),
aic_criterion.max(),
color="black",
linestyle="--",
label="Selected alpha",
)
plt.legend()
plt.ylabel("Information criterion")
plt.xlabel("Lasso model sequence")
_ = plt.title("Lasso model selection via AIC and BIC")
Zusammenfassung
In diesem Lab haben wir gelernt, wie man den LassoLarsIC-Schätzer verwendet, um das beste Lasso-Modell mit den AIC- und BIC-Kriterien auszuwählen. Wir haben auch gelernt, wie man AIC und BIC so skalieren muss, dass sie der Definition in [ZHT2007]_. entsprechen.