Hauptkomponentenanalyse

Machine LearningMachine LearningBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

Die Hauptkomponentenanalyse (Principal Components Analysis, PCA) ist eine statistische Technik, die zur Vereinfachung von Daten verwendet wird. Es ist eine lineare Transformationsmethode, die die wichtigsten Merkmale oder Muster in den Daten ermittelt. Die PCA wird in der Datenanalyse und im maschinellen Lernen weit verbreitet zur Reduzierung der Dimensionen, zur Datenkompression und zur Merkmalsgewinnung eingesetzt. In diesem Lab verwenden wir die scikit-learn-Bibliothek in Python, um die PCA auf einem Datensatz durchzuführen und die Ergebnisse zu visualisieren.

Tipps für die virtuelle Maschine

Nachdem der Start der virtuellen Maschine abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen von Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Bibliotheken importieren

Wir beginnen mit dem Import der erforderlichen Bibliotheken für dieses Lab. Wir werden numpy für numerische Operationen, matplotlib für die Visualisierung und scikit-learn für die PCA verwenden.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

Daten erstellen

Wir werden für dieses Lab ein zufälliges Datenset generieren. Das Datenset wird drei Variablen x, y und z haben. Wir werden x und y als normalverteilte Zufallsvariablen mit Mittelwert 0 und Standardabweichung von 0,5 definieren. z ist ebenfalls normalverteilt mit Mittelwert 0 und Standardabweichung von 0,1.

e = np.exp(1)
np.random.seed(4)

y = np.random.normal(scale=0.5, size=(30000))
x = np.random.normal(scale=0.5, size=(30000))
z = np.random.normal(scale=0.1, size=len(x))

Hauptkomponentenanalyse (PCA) durchführen

Als nächstes werden wir die PCA auf unserem Datensatz durchführen. Zunächst verbinden wir x, y und z, um ein 3D-Array Y zu bilden. Anschließend erstellen wir eine Instanz der PCA-Klasse und passen sie an unsere Daten an. Anschließend können wir die Hauptkomponenten über das Attribut components_ des PCA-Objekts zugreifen.

Y = np.c_[x, y, z]
pca = PCA(n_components=3)
pca.fit(Y)
components = pca.components_

Ergebnisse der Hauptkomponentenanalyse (PCA) visualisieren

Wir können die Ergebnisse unserer PCA visualisieren, indem wir die Hauptkomponenten darstellen. Wir erstellen einen 3D-Streuplot unserer Daten und färben jeden Punkt basierend auf seiner Dichte. Anschließend zeichnen wir die ersten beiden Hauptkomponenten als Ebene. Wir wiederholen diesen Prozess für zwei verschiedene Ansichten der Daten.

fig = plt.figure(figsize=(10, 5))

## Erste Ansicht
ax = fig.add_subplot(121, projection="3d", elev=-40, azim=-80)
ax.set_title("Ansicht 1")

## Zeichnen der Daten
density = np.exp(-(x ** 2 + y ** 2))
ax.scatter(x, y, z, c=density, cmap="plasma", marker="+", alpha=0.4)

## Zeichnen der Hauptkomponenten
v1 = components[:, 0]
v2 = components[:, 1]
x_pca_plane = np.array([v1[0], -v1[0], -v1[0], v1[0]])
y_pca_plane = np.array([v1[1], -v1[1], -v1[1], v1[1]])
z_pca_plane = np.array([v1[2], -v1[2], v1[2], v1[2]])
ax.plot_surface(x_pca_plane, y_pca_plane, z_pca_plane, alpha=0.2)

## Zweite Ansicht
ax = fig.add_subplot(122, projection="3d", elev=30, azim=20)
ax.set_title("Ansicht 2")

## Zeichnen der Daten
density = np.exp(-(x ** 2 + y ** 2))
ax.scatter(x, y, z, c=density, cmap="plasma", marker="+", alpha=0.4)

## Zeichnen der Hauptkomponenten
v1 = components[:, 0]
v2 = components[:, 1]
x_pca_plane = np.array([v1[0], -v1[0], -v1[0], v1[0]])
y_pca_plane = np.array([v1[1], -v1[1], -v1[1], v1[1]])
z_pca_plane = np.array([v1[2], -v1[2], v1[2], v1[2]])
ax.plot_surface(x_pca_plane, y_pca_plane, z_pca_plane, alpha=0.2)

plt.show()

Zusammenfassung

In diesem Lab haben wir gelernt, wie man die Hauptkomponentenanalyse (PCA) auf einem Datensatz mit der scikit-learn-Bibliothek in Python durchführt. Wir haben ein zufälliges Datenset mit drei Variablen generiert, die PCA durchgeführt und die Ergebnisse visualisiert. Wir haben die Daten in einem 3D-Streuplot dargestellt und eine Ebene für die ersten beiden Hauptkomponenten hinzugefügt. Die PCA ist eine leistungsstarke Technik zur Reduzierung der Datenmenge und zum Finden der wichtigsten Muster oder Merkmale.