Введение
В этом лабораторном задании используется синтетический датасет для сравнения двух различных байесовских регрессоров: Automatic Relevance Determination и Bayesian Ridge Regression. В первой части лабораторной работы сравниваются коэффициенты моделей относительно истинных коэффициентов с использованием модели Ordinary Least Squares (OLS) в качестве базовой. В последнем разделе лабораторная работа строит прогнозы и определяет неопределенность для ARD и байесовской регрессии с гребнем с использованием полиномиального разложения признаков для подгонки нелинейной зависимости между X и y.
Советы по работе с ВМ
После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений в Jupyter Notebook.
Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.
Генерация синтетического датасета
Мы генерируем синтетический датасет, где X и y линейно связаны. Десять признаков из X будут использоваться для генерации y. Другие признаки не полезны для предсказания y. Кроме того, мы генерируем датасет, где n_samples == n_features. Такое условие представляет вызов для модели OLS и потенциально может привести к произвольно большим весам. Наличие априорной информации о весах и штраф помогает облегчить проблему. Наконец, добавляется гауссов шум.
from sklearn.datasets import make_regression
X, y, true_weights = make_regression(
n_samples=100,
n_features=100,
n_informative=10,
noise=8,
coef=True,
random_state=42,
)
Настройка регрессоров
Мы настраиваем оба байесовских модели и OLS для последующего сравнения коэффициентов моделей.
import pandas as pd
from sklearn.linear_model import ARDRegression, LinearRegression, BayesianRidge
olr = LinearRegression().fit(X, y)
brr = BayesianRidge(compute_score=True, n_iter=30).fit(X, y)
ard = ARDRegression(compute_score=True, n_iter=30).fit(X, y)
df = pd.DataFrame(
{
"Weights of true generative process": true_weights,
"ARDRegression": ard.coef_,
"BayesianRidge": brr.coef_,
"LinearRegression": olr.coef_,
}
)
Построение графиков истинных и оцененных коэффициентов
Мы сравниваем коэффициенты каждой модели с весами истинной генеративной модели.
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.colors import SymLogNorm
plt.figure(figsize=(10, 6))
ax = sns.heatmap(
df.T,
norm=SymLogNorm(linthresh=10e-4, vmin=-80, vmax=80),
cbar_kws={"label": "значения коэффициентов"},
cmap="seismic_r",
)
plt.ylabel("линейная модель")
plt.xlabel("коэффициенты")
plt.tight_layout(rect=(0, 0, 1, 0.95))
_ = plt.title("коэффициенты моделей")
Построение графика предельной лог-вероятности
Мы строим график предельной лог-вероятности для обеих моделей.
import numpy as np
ard_scores = -np.array(ard.scores_)
brr_scores = -np.array(brr.scores_)
plt.plot(ard_scores, color="navy", label="ARD")
plt.plot(brr_scores, color="red", label="BayesianRidge")
plt.ylabel("Log-вероятность")
plt.xlabel("Итерации")
plt.xlim(1, 30)
plt.legend()
_ = plt.title("Лог-вероятность моделей")
Генерация синтетического датасета
Мы создаем целевую переменную, которая является нелинейной функцией входного признака. Добавляется шум, подчиняющийся стандартному равномерному распределению.
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
rng = np.random.RandomState(0)
n_samples = 110
## сортируем данные, чтобы позже было проще построить график
X = np.sort(-10 * rng.rand(n_samples) + 10)
noise = rng.normal(0, 1, n_samples) * 1.35
y = np.sqrt(X) * np.sin(X) + noise
full_data = pd.DataFrame({"input_feature": X, "target": y})
X = X.reshape((-1, 1))
## экстраполяция
X_plot = np.linspace(10, 10.4, 10)
y_plot = np.sqrt(X_plot) * np.sin(X_plot)
X_plot = np.concatenate((X, X_plot.reshape((-1, 1))))
y_plot = np.concatenate((y - noise, y_plot))
Настройка регрессоров
Мы пытаемся использовать полином степени 10, чтобы потенциально получить переобучение, хотя байесовские линейные модели нормализуют размер коэффициентов полинома. Поскольку fit_intercept=True по умолчанию для ARDRegression и BayesianRidge, то PolynomialFeatures не должен вводить дополнительную биас-признак. Задав return_std=True, байесовские регрессоры возвращают стандартное отклонение постериорного распределения для параметров модели.
ard_poly = make_pipeline(
PolynomialFeatures(degree=10, include_bias=False),
StandardScaler(),
ARDRegression(),
).fit(X, y)
brr_poly = make_pipeline(
PolynomialFeatures(degree=10, include_bias=False),
StandardScaler(),
BayesianRidge(),
).fit(X, y)
y_ard, y_ard_std = ard_poly.predict(X_plot, return_std=True)
y_brr, y_brr_std = brr_poly.predict(X_plot, return_std=True)
Построение графиков полиномиальных регрессий с стандартными ошибками оценок
Стрелки ошибок представляют собой одно стандартное отклонение предсказанного гауссова распределения для точек запроса. Обратите внимание, что ARD-регрессия лучше всего описывает истинные значения, когда используются параметры по умолчанию в обеих моделях, но дальнейшее уменьшение гиперпараметра lambda_init для Bayesian Ridge может уменьшить его смещение. Наконец, из-за внутренних ограничений полиномиальной регрессии обе модели не справляются при экстраполяции.
ax = sns.scatterplot(
data=full_data, x="input_feature", y="target", color="black", alpha=0.75
)
ax.plot(X_plot, y_plot, color="black", label="Ground Truth")
ax.plot(X_plot, y_brr, color="red", label="BayesianRidge with polynomial features")
ax.plot(X_plot, y_ard, color="navy", label="ARD with polynomial features")
ax.fill_between(
X_plot.ravel(),
y_ard - y_ard_std,
y_ard + y_ard_std,
color="navy",
alpha=0.3,
)
ax.fill_between(
X_plot.ravel(),
y_brr - y_brr_std,
y_brr + y_brr_std,
color="red",
alpha=0.3,
)
ax.legend()
_ = ax.set_title("Polynomial fit of a non-linear feature")
Резюме
В этом практическом занятии сравниваются два различных байесовских регрессора на основе синтетического датасета. В первой части практического занятия сравниваются коэффициенты моделей с истинными коэффициентами с использованием модели Ordinary Least Squares (OLS) в качестве базовой. В последнем разделе практического занятия строятся прогнозы и интервалы неопределенности для ARD и байесовской регрессии Ridge с использованием полиномиального разложения признаков для аппроксимации нелинейной зависимости между X и y.