Einführung
In diesem Lab werden wir die Dichteschätzung untersuchen, die eine Technik ist, um die Wahrscheinlichkeitsdichtefunktion einer Zufallsvariablen zu schätzen. Insbesondere werden wir uns auf die Kernel-Dichteschätzung konzentrieren, die eine nicht-parametrische Methode zur Dichteschätzung ist.
Tipps für die virtuelle Maschine
Nachdem der Start der virtuellen Maschine abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.
Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen von Jupyter Notebook nicht automatisiert werden.
Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.
Importieren der erforderlichen Bibliotheken
Zunächst müssen wir die Bibliotheken importieren, die wir für die Dichteschätzung verwenden werden. Wir werden den KernelDensity-Schätzer aus dem Modul sklearn.neighbors und die numpy-Bibliothek für die Datenmanipulation verwenden.
from sklearn.neighbors import KernelDensity
import numpy as np
Generieren von Beispiel-Daten
Als nächstes werden wir einige Beispiel-Daten generieren, auf denen wir die Dichteschätzung durchführen werden. Zu Zwecken dieses Labs generieren wir einen eindimensionalen Datensatz mit 100 Punkten. Wir werden eine Normalverteilung verwenden, um die Daten zu generieren.
np.random.seed(0)
X = np.random.normal(0, 1, 100).reshape(-1, 1)
Ein Kernel-Dichteschätzer anpassen
Jetzt werden wir eine Instanz des KernelDensity-Schätzers erstellen und ihn an unsere Daten anpassen. Wir können den Typ des Kerns und die Bandbreite für den Schätzer auswählen. Beispielsweise können wir einen Gaußschen Kern verwenden und die Bandbreite auf 0,2 setzen.
kde = KernelDensity(kernel='gaussian', bandwidth=0.2).fit(X)
Die Proben bewerten
Nachdem wir den Schätzer angepasst haben, können wir die score_samples-Methode verwenden, um die Log-Wahrscheinlichkeit der Proben unter der geschätzten Dichtefunktion zu berechnen. Dies wird uns einen Maßstab geben, wie wahrscheinlich jede Probe gemäß der Dichteschätzung ist.
scores = kde.score_samples(X)
Visualisieren der Dichteschätzung
Schließlich können wir die Dichteschätzung mithilfe eines Histogramms und der geschätzten Dichtefunktion visualisieren. Wir können das Histogramm der ursprünglichen Daten sowie die geschätzte Dichtefunktion plotten.
import matplotlib.pyplot as plt
bins = np.linspace(-5, 5, 50)
plt.hist(X, bins=bins, density=True, alpha=0.5, label='Histogram')
plt.plot(X, np.exp(scores), color='red', label='Kernel Density Estimate')
plt.legend()
plt.show()
Zusammenfassung
In diesem Lab haben wir gelernt, wie man die Kernel-Dichteschätzung mit dem KernelDensity-Schätzer aus scikit-learn durchführt. Die Kernel-Dichteschätzung ist eine leistungsstarke Technik zur Schätzung der Wahrscheinlichkeitsdichtefunktion einer Zufallsvariablen. Indem wir einen Kernel-Dichteschätzer an einen Datensatz anpassen, können wir die zugrunde liegende Dichte schätzen und sie mithilfe eines Histogramms und der geschätzten Dichtefunktion visualisieren. Dies ermöglicht es uns, Einblicke in die Verteilung der Daten zu gewinnen und wahrscheinlichkeitstheoretische Vorhersagen zu treffen.