Оценка ковариации | Регуляризационные методы | Компромисс между смещением и дисперсией

Введение

В этом практическом занятии показано, как выполнять оценку ковариации с использованием регуляризационных методов, таких как методы сужения, для уменьшения дисперсии оценщика, а также как выбирать компромисс между смещением и дисперсией. Мы сравним три подхода к настройке параметра регуляризации.

Советы по работе с ВМ

После запуска виртуальной машины кликните в левом верхнем углу, чтобы переключиться на вкладку Ноутбук и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Генерация выборочных данных

Мы генерируем выборочные данные с 40 признаками и 20 примерами. Мы используем функцию np.random.normal(), чтобы создать нормальное распределение.

import numpy as np

n_features, n_samples = 40, 20
np.random.seed(42)
base_X_train = np.random.normal(size=(n_samples, n_features))
base_X_test = np.random.normal(size=(n_samples, n_features))

coloring_matrix = np.random.normal(size=(n_features, n_features))
X_train = np.dot(base_X_train, coloring_matrix)
X_test = np.dot(base_X_test, coloring_matrix)

Вычисление правдоподобия на тестовых данных

Мы вычисляем отрицательный логарифм правдоподобия на тестовых данных с использованием класса ShrunkCovariance из модуля sklearn.covariance и функции log_likelihood из модуля scipy.linalg. Мы рассчитываем ряд возможных значений коэффициента сужения и вычисляем правдоподобие для каждого значения.

from sklearn.covariance import ShrunkCovariance, empirical_covariance, log_likelihood
from scipy import linalg

shrinkages = np.logspace(-2, 0, 30)
negative_logliks = [
    -ShrunkCovariance(shrinkage=s).fit(X_train).score(X_test) for s in shrinkages
]

real_cov = np.dot(coloring_matrix.T, coloring_matrix)
emp_cov = empirical_covariance(X_train)
loglik_real = -log_likelihood(emp_cov, linalg.inv(real_cov))

Сравнение различных подходов к настройке параметра регуляризации

Мы сравниваем три подхода к настройке параметра регуляризации: кросс-валидация, метод Ледоита-Вольфа и метод OAS.

from sklearn.model_selection import GridSearchCV
from sklearn.covariance import LedoitWolf, OAS

tuned_parameters = [{"shrinkage": shrinkages}]
cv = GridSearchCV(ShrunkCovariance(), tuned_parameters)
cv.fit(X_train)

lw = LedoitWolf()
loglik_lw = lw.fit(X_train).score(X_test)

oa = OAS()
loglik_oa = oa.fit(X_train).score(X_test)

Построение графиков результатов

Мы строим график правдоподобия для невидимых данных при различных значениях параметра сужения и показываем выборы, полученные с использованием кросс-валидации, оценок методом Ледоита-Вольфа и методом OAS.

import matplotlib.pyplot as plt

fig = plt.figure()
plt.title("Regularized covariance: likelihood and shrinkage coefficient")
plt.xlabel("Regularization parameter: shrinkage coefficient")
plt.ylabel("Error: negative log-likelihood on test data")

plt.loglog(shrinkages, negative_logliks, label="Negative log-likelihood")

plt.plot(plt.xlim(), 2 * [loglik_real], "--r", label="Real covariance likelihood")

lik_max = np.amax(negative_logliks)
lik_min = np.amin(negative_logliks)
ymin = lik_min - 6.0 * np.log((plt.ylim()[1] - plt.ylim()[0]))
ymax = lik_max + 10.0 * np.log(lik_max - lik_min)
xmin = shrinkages[0]
xmax = shrinkages[-1]

plt.vlines(
    lw.shrinkage_,
    ymin,
    -loglik_lw,
    color="magenta",
    linewidth=3,
    label="Ledoit-Wolf estimate",
)

plt.vlines(
    oa.shrinkage_, ymin, -loglik_oa, color="purple", linewidth=3, label="OAS estimate"
)

plt.vlines(
    cv.best_estimator_.shrinkage,
    ymin,
    -cv.best_estimator_.score(X_test),
    color="cyan",
    linewidth=3,
    label="Cross-validation best estimate",
)

plt.ylim(ymin, ymax)
plt.xlim(xmin, xmax)
plt.legend()

plt.show()

Резюме

В этом практическом занятии мы научились выполнять оценку ковариации с использованием регуляризационных методов, таких как методы сужения. Мы сравнили три подхода к настройке параметра регуляризации: кросс-валидацию, метод Ледоита-Вольфа и метод OAS. Мы построили график правдоподобия для невидимых данных при различных значениях параметра сужения и показали выборы, полученные с использованием кросс-валидации, оценок методом Ледоита-Вольфа и методом OAS.

Оценка ковариации методом сужения