Régression par processus gaussien | Tutoriel d'apprentissage automatique

Introduction

Dans ce laboratoire, nous allons apprendre à utiliser la régression par processus gaussien pour ajuster un modèle à un ensemble de données. Nous allons générer un ensemble de données synthétique et utiliser la régression par processus gaussien pour ajuster un modèle à celui-ci. Nous utiliserons la bibliothèque scikit-learn pour effectuer la régression par processus gaussien.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder au carnet Jupyter pour pratiquer.

Parfois, vous devrez peut-être attendre quelques secondes pour que le carnet Jupyter ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations du carnet Jupyter.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous réglerons rapidement le problème pour vous.

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"]) sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/gaussian_process("Gaussian Processes") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/gaussian_process -.-> lab-49145{{"Ajuster un modèle de régression par processus gaussien"}} ml/sklearn -.-> lab-49145{{"Ajuster un modèle de régression par processus gaussien"}} end

Génération de l'ensemble de données

Nous allons générer un ensemble de données synthétique. Le véritable processus de génération est défini comme f(x) = x sin(x).

import numpy as np

X = np.linspace(start=0, stop=10, num=1_000).reshape(-1, 1)
y = np.squeeze(X * np.sin(X))

import matplotlib.pyplot as plt

plt.plot(X, y, label=r"$f(x) = x \sin(x)$", linestyle="dotted")
plt.legend()
plt.xlabel("$x$")
plt.ylabel("$f(x)$")
_ = plt.title("True generative process")

Cible sans bruit

Dans cette étape, nous allons utiliser le véritable processus de génération sans ajouter de bruit. Pour entraîner la régression par processus gaussien, nous ne sélectionnerons que quelques échantillons.

rng = np.random.RandomState(1)
training_indices = rng.choice(np.arange(y.size), size=6, replace=False)
X_train, y_train = X[training_indices], y[training_indices]

from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RBF

kernel = 1 * RBF(length_scale=1.0, length_scale_bounds=(1e-2, 1e2))
gaussian_process = GaussianProcessRegressor(kernel=kernel, n_restarts_optimizer=9)
gaussian_process.fit(X_train, y_train)
gaussian_process.kernel_

Prédictions et intervalles de confiance

Après avoir ajusté notre modèle, nous voyons que les hyperparamètres du noyau ont été optimisés. Maintenant, nous allons utiliser notre noyau pour calculer la prédiction moyenne de l'ensemble de données complet et tracer l'intervalle de confiance à 95 %.

mean_prediction, std_prediction = gaussian_process.predict(X, return_std=True)

plt.plot(X, y, label=r"$f(x) = x \sin(x)$", linestyle="dotted")
plt.scatter(X_train, y_train, label="Observations")
plt.plot(X, mean_prediction, label="Mean prediction")
plt.fill_between(
    X.ravel(),
    mean_prediction - 1.96 * std_prediction,
    mean_prediction + 1.96 * std_prediction,
    alpha=0.5,
    label=r"95% confidence interval",
)
plt.legend()
plt.xlabel("$x$")
plt.ylabel("$f(x)$")
_ = plt.title("Gaussian process regression on noise-free dataset")

Cibles bruitées

Nous pouvons répéter une expérience similaire en ajoutant un bruit supplémentaire à la cible cette fois-ci. Cela permettra de voir l'effet du bruit sur le modèle ajusté.

noise_std = 0.75
y_train_noisy = y_train + rng.normal(loc=0.0, scale=noise_std, size=y_train.shape)

gaussian_process = GaussianProcessRegressor(
    kernel=kernel, alpha=noise_std**2, n_restarts_optimizer=9
)
gaussian_process.fit(X_train, y_train_noisy)
mean_prediction, std_prediction = gaussian_process.predict(X, return_std=True)

plt.plot(X, y, label=r"$f(x) = x \sin(x)$", linestyle="dotted")
plt.errorbar(
    X_train,
    y_train_noisy,
    noise_std,
    linestyle="None",
    color="tab:blue",
    marker=".",
    markersize=10,
    label="Observations",
)
plt.plot(X, mean_prediction, label="Mean prediction")
plt.fill_between(
    X.ravel(),
    mean_prediction - 1.96 * std_prediction,
    mean_prediction + 1.96 * std_prediction,
    color="tab:orange",
    alpha=0.5,
    label=r"95% confidence interval",
)
plt.legend()
plt.xlabel("$x$")
plt.ylabel("$f(x)$")
_ = plt.title("Gaussian process regression on a noisy dataset")

Sommaire

Dans ce laboratoire, nous avons appris à utiliser la régression par processus gaussien pour ajuster un modèle à un ensemble de données. Nous avons généré un ensemble de données synthétique et utilisé la régression par processus gaussien pour ajuster un modèle à celui-ci. Nous avons utilisé la bibliothèque scikit-learn pour effectuer la régression par processus gaussien et tracé les prédictions moyennes et les intervalles de confiance à 95 %.