Unüberwachtes Clustering mit k-Means

Machine LearningMachine LearningBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab werden wir Clustering, eine beliebte Methode der unüberwachten maschinellen Lerntechniken, erkunden. Clustering wird verwendet, um ähnliche Datenpunkte aufgrund ihrer Merkmale oder Attribute zusammen zu gruppieren, ohne dass gelabelte Trainingsdaten erforderlich sind. Es gibt verschiedene Clustering-Algorithmen, jeder mit seinen eigenen Stärken und Schwächen. In diesem Lab werden wir uns auf den k-Means-Clustering-Algorithmus konzentrieren.

Tipps für die VM

Nachdem der Start der VM abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen von Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby um Hilfe bitten. Geben Sie nach der Sitzung Feedback ab, und wir werden das Problem für Sie prompt beheben.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"]) sklearn(("Sklearn")) -.-> sklearn/UtilitiesandDatasetsGroup(["Utilities and Datasets"]) sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/cluster("Clustering") sklearn/UtilitiesandDatasetsGroup -.-> sklearn/datasets("Datasets") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/cluster -.-> lab-71116{{"Unüberwachtes Clustering mit k-Means"}} sklearn/datasets -.-> lab-71116{{"Unüberwachtes Clustering mit k-Means"}} ml/sklearn -.-> lab-71116{{"Unüberwachtes Clustering mit k-Means"}} end

Importieren der erforderlichen Bibliotheken

Bevor wir beginnen, importieren wir die Bibliotheken, die wir für dieses Lab benötigen.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

Erzeugen von Beispiel-Daten

Als nächstes erzeugen wir einige Beispiel-Daten, mit denen wir arbeiten können. Wir verwenden die Funktion make_blobs aus dem Modul sklearn.datasets, um einen synthetischen Datensatz mit Clustern zu erstellen.

## Generate sample data
X, y = make_blobs(n_samples=100, centers=4, random_state=0, cluster_std=1.0)

Visualisierung der Daten

Lassen Sie uns die erzeugten Daten mithilfe eines Scatterplots visualisieren.

## Plot the data points
plt.scatter(X[:, 0], X[:, 1])
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()

Ausführen des k-Means-Clustering

Lassen Sie uns nun den k-Means-Clustering-Algorithmus auf die Daten anwenden.

## Perform K-Means clustering
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)

Visualisierung der Cluster

Lassen Sie uns die Cluster visualisieren, die durch den k-Means-Algorithmus gebildet wurden.

## Get the cluster labels for each data point
labels = kmeans.labels_

## Plot the data points with color-coded clusters
plt.scatter(X[:, 0], X[:, 1], c=labels)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()

Bewerten des Clusterings

Um die Clusterergebnisse zu bewerten, können wir die Trägheit (Inertia) der Cluster berechnen, die die Summe der quadrierten Abstände der Proben zu ihrem nächsten Clusterzentrum darstellt.

## Calculate the inertia of the clusters
inertia = kmeans.inertia_
print("Inertia:", inertia)

Zusammenfassung

In diesem Lab haben wir den k-Means-Clustering-Algorithmus untersucht. Wir haben einen synthetischen Datensatz erzeugt, k-Means-Clustering auf den Daten durchgeführt und die resultierenden Cluster visualisiert. Wir haben auch die Trägheit (Inertia) der Cluster als Maß für die Clusterleistung berechnet. Clustering ist eine leistungsstarke Technik zum Finden von Strukturen in unmarkierten Daten und kann auf verschiedene Domänen und Datentypen angewendet werden.