Оценка ковариации | Статистический анализ | Гауссовские данные

Введение

Оценка ковариации является важной задачей в статистическом анализе. В этом лабораторном занятии мы сравним два метода оценки ковариации: Ledoit-Wolf и OAS. Мы будем использовать данные, распределенные нормально, для сравнения оцененного среднеквадратичного отклонения (MSE) этих двух методов.

Советы по использованию ВМ

После завершения запуска ВМ нажмите в верхнем левом углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импорт библиотек

Во - первых, нам нужно импортировать необходимые библиотеки для этой лабораторной работы. Мы будем использовать numpy для численных вычислений, matplotlib для визуализации и scikit - learn для оценки ковариации.

import numpy as np
import matplotlib.pyplot as plt
from scipy.linalg import toeplitz, cholesky
from sklearn.covariance import LedoitWolf, OAS

Генерация данных

Далее мы сгенерируем данные, распределенные нормально, с матрицей ковариации, которая подчиняется процессу AR(1). Мы будем использовать функции toeplitz и cholesky из scipy.linalg для генерации матрицы ковариации.

np.random.seed(0)

n_features = 100
r = 0.1
real_cov = toeplitz(r ** np.arange(n_features))
coloring_matrix = cholesky(real_cov)

Вычисление MSE и коэффициента сжатия

Мы сравним методы Ledoit - Wolf и OAS, используя синтетические данные. Мы вычислим среднеквадратичную ошибку (MSE) и коэффициент сжатия обоих методов.

n_samples_range = np.arange(6, 31, 1)
repeat = 100
lw_mse = np.zeros((n_samples_range.size, repeat))
oa_mse = np.zeros((n_samples_range.size, repeat))
lw_shrinkage = np.zeros((n_samples_range.size, repeat))
oa_shrinkage = np.zeros((n_samples_range.size, repeat))

for i, n_samples in enumerate(n_samples_range):
    for j in range(repeat):
        X = np.dot(np.random.normal(size=(n_samples, n_features)), coloring_matrix.T)

        lw = LedoitWolf(store_precision=False, assume_centered=True)
        lw.fit(X)
        lw_mse[i, j] = lw.error_norm(real_cov, scaling=False)
        lw_shrinkage[i, j] = lw.shrinkage_

        oa = OAS(store_precision=False, assume_centered=True)
        oa.fit(X)
        oa_mse[i, j] = oa.error_norm(real_cov, scaling=False)
        oa_shrinkage[i, j] = oa.shrinkage_

Построение графиков результатов

Наконец, мы построим графики, чтобы сравнить MSE и коэффициент сжатия методов Ledoit - Wolf и OAS.

plt.subplot(2, 1, 1)
plt.errorbar(
    n_samples_range,
    lw_mse.mean(1),
    yerr=lw_mse.std(1),
    label="Ledoit-Wolf",
    color="navy",
    lw=2,
)
plt.errorbar(
    n_samples_range,
    oa_mse.mean(1),
    yerr=oa_mse.std(1),
    label="OAS",
    color="darkorange",
    lw=2,
)
plt.ylabel("Квадратичная ошибка")
plt.legend(loc="upper right")
plt.title("Сравнение оценщиков ковариации")
plt.xlim(5, 31)

plt.subplot(2, 1, 2)
plt.errorbar(
    n_samples_range,
    lw_shrinkage.mean(1),
    yerr=lw_shrinkage.std(1),
    label="Ledoit-Wolf",
    color="navy",
    lw=2,
)
plt.errorbar(
    n_samples_range,
    oa_shrinkage.mean(1),
    yerr=oa_shrinkage.std(1),
    label="OAS",
    color="darkorange",
    lw=2,
)
plt.xlabel("n_samples")
plt.ylabel("Коэффициент сжатия")
plt.legend(loc="lower right")
plt.ylim(plt.ylim()[0], 1.0 + (plt.ylim()[1] - plt.ylim()[0]) / 10.0)
plt.xlim(5, 31)

plt.show()

Резюме

В этой лабораторной работе мы сравнили методы Ledoit - Wolf и OAS для оценки ковариации, используя данные, распределенные нормально. Мы построили графики MSE и коэффициента сжатия обоих методов и обнаружили, что метод OAS имеет лучшую сходимость при предположении, что данные являются гауссовскими.