Vergleich von Kovarianzschätzern

Machine LearningMachine LearningBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

Die Kovarianzschätzung ist eine wichtige Aufgabe in der statistischen Analyse. In diesem Lab werden wir zwei Methoden der Kovarianzschätzung vergleichen: Ledoit-Wolf und OAS. Wir werden Gaussian-verteilte Daten verwenden, um die geschätzte mittlere quadratische Abweichung (MSE) dieser beiden Methoden zu vergleichen.

Tipps für die virtuelle Maschine (VM)

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie während des Lernens Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Bibliotheken importieren

Zunächst müssen wir die erforderlichen Bibliotheken für dieses Lab importieren. Wir werden numpy für numerische Berechnungen, matplotlib für Visualisierungen und scikit-learn für die Kovarianzschätzung verwenden.

import numpy as np
import matplotlib.pyplot as plt
from scipy.linalg import toeplitz, cholesky
from sklearn.covariance import LedoitWolf, OAS

Daten generieren

Als nächstes werden wir Gaussian-verteilte Daten mit einer Kovarianzmatrix generieren, die einem AR(1)-Prozess folgt. Wir werden die Funktionen toeplitz und cholesky aus scipy.linalg verwenden, um die Kovarianzmatrix zu generieren.

np.random.seed(0)

n_features = 100
r = 0.1
real_cov = toeplitz(r ** np.arange(n_features))
coloring_matrix = cholesky(real_cov)

MSE und Shrinking berechnen

Wir werden die Ledoit-Wolf- und OAS-Methoden unter Verwendung der simulierten Daten vergleichen. Wir werden den mittleren quadratischen Fehler (MSE) und das Shrinking beider Methoden berechnen.

n_samples_range = np.arange(6, 31, 1)
repeat = 100
lw_mse = np.zeros((n_samples_range.size, repeat))
oa_mse = np.zeros((n_samples_range.size, repeat))
lw_shrinkage = np.zeros((n_samples_range.size, repeat))
oa_shrinkage = np.zeros((n_samples_range.size, repeat))

for i, n_samples in enumerate(n_samples_range):
    for j in range(repeat):
        X = np.dot(np.random.normal(size=(n_samples, n_features)), coloring_matrix.T)

        lw = LedoitWolf(store_precision=False, assume_centered=True)
        lw.fit(X)
        lw_mse[i, j] = lw.error_norm(real_cov, scaling=False)
        lw_shrinkage[i, j] = lw.shrinkage_

        oa = OAS(store_precision=False, assume_centered=True)
        oa.fit(X)
        oa_mse[i, j] = oa.error_norm(real_cov, scaling=False)
        oa_shrinkage[i, j] = oa.shrinkage_

Ergebnisse plotten

Schließlich werden wir die Ergebnisse plotten, um die MSE und das Shrinking der Ledoit-Wolf- und OAS-Methoden zu vergleichen.

plt.subplot(2, 1, 1)
plt.errorbar(
    n_samples_range,
    lw_mse.mean(1),
    yerr=lw_mse.std(1),
    label="Ledoit-Wolf",
    color="navy",
    lw=2,
)
plt.errorbar(
    n_samples_range,
    oa_mse.mean(1),
    yerr=oa_mse.std(1),
    label="OAS",
    color="darkorange",
    lw=2,
)
plt.ylabel("Quadratischer Fehler")
plt.legend(loc="upper right")
plt.title("Vergleich von Kovarianzschätzern")
plt.xlim(5, 31)

plt.subplot(2, 1, 2)
plt.errorbar(
    n_samples_range,
    lw_shrinkage.mean(1),
    yerr=lw_shrinkage.std(1),
    label="Ledoit-Wolf",
    color="navy",
    lw=2,
)
plt.errorbar(
    n_samples_range,
    oa_shrinkage.mean(1),
    yerr=oa_shrinkage.std(1),
    label="OAS",
    color="darkorange",
    lw=2,
)
plt.xlabel("n_samples")
plt.ylabel("Shrinking")
plt.legend(loc="lower right")
plt.ylim(plt.ylim()[0], 1.0 + (plt.ylim()[1] - plt.ylim()[0]) / 10.0)
plt.xlim(5, 31)

plt.show()

Zusammenfassung

In diesem Lab haben wir die Ledoit-Wolf- und OAS-Methoden für die Kovarianzschätzung unter Verwendung von Gaussian-verteilten Daten verglichen. Wir haben die MSE und das Shrinking beider Methoden geplottet und festgestellt, dass die OAS-Methode unter der Annahme, dass die Daten Gaussian sind, eine bessere Konvergenz aufweist.