Einführung
In diesem Lab wird gezeigt, wie der Spectral Co-Clustering-Algorithmus verwendet wird, um einen Datensatz zu biclustern. Der Datensatz wird mit der Funktion make_biclusters erzeugt, die eine Matrix mit kleinen Werten erstellt und Bicluster mit großen Werten einfügt. Die Zeilen und Spalten werden dann gemischt und an den Spectral Co-Clustering-Algorithmus übergeben. Die Umordnung der gemischten Matrix, um die Bicluster zusammenhängend zu machen, zeigt, wie genau der Algorithmus die Bicluster gefunden hat.
Tipps für die VM
Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.
Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.
Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.
Importieren von erforderlichen Bibliotheken
Wir müssen erforderliche Bibliotheken wie numpy, matplotlib, scikit-learn importieren.
import numpy as np
from matplotlib import pyplot as plt
from sklearn.datasets import make_biclusters
from sklearn.cluster import SpectralCoclustering
from sklearn.metrics import consensus_score
Erzeugen eines Datensatzes
Wir erzeugen einen Datensatz der Größe (300, 300) mit 5 Biclustern und einem Rauschen von 5 mithilfe der Funktion make_biclusters.
data, rows, columns = make_biclusters(shape=(300, 300), n_clusters=5, noise=5, shuffle=False, random_state=0)
Visualisierung des ursprünglichen Datensatzes
Wir visualisieren den ursprünglichen Datensatz mit der Funktion matshow().
plt.matshow(data, cmap=plt.cm.Blues)
plt.title("Original dataset")
Mischen des Datensatzes
Wir mischen den Datensatz mit der Funktion permutation() aus numpy.
rng = np.random.RandomState(0)
row_idx = rng.permutation(data.shape[0])
col_idx = rng.permutation(data.shape[1])
data = data[row_idx][:, col_idx]
Visualisierung des gemischten Datensatzes
Wir visualisieren den gemischten Datensatz mit der Funktion matshow().
plt.matshow(data, cmap=plt.cm.Blues)
plt.title("Shuffled dataset")
Anwenden des Spectral Co-Clustering-Algorithmus
Wir wenden den Spectral Co-Clustering-Algorithmus auf den gemischten Datensatz mit 5 Clustern an.
model = SpectralCoclustering(n_clusters=5, random_state=0)
model.fit(data)
Berechnung des Konsensus-Scores
Wir berechnen den Konsensus-Score der Bicluster mit der Funktion consensus_score().
score = consensus_score(model.biclusters_, (rows[:, row_idx], columns[:, col_idx]))
print("consensus score: {:.3f}".format(score))
Neuordnung des gemischten Datensatzes
Wir ordnen den gemischten Datensatz neu an, um die Bicluster zusammenhängend zu machen, mit der Funktion argsort() aus numpy.
fit_data = data[np.argsort(model.row_labels_)]
fit_data = fit_data[:, np.argsort(model.column_labels_)]
Visualisierung der Bicluster
Wir visualisieren die Bicluster mit der Funktion matshow().
plt.matshow(fit_data, cmap=plt.cm.Blues)
plt.title("After biclustering; rearranged to show biclusters")
Zusammenfassung
In diesem Lab haben wir gelernt, wie man einen Datensatz generiert und mit dem Spectral Co-Clustering-Algorithmus in Bicluster unterteilt. Der ursprüngliche Datensatz wurde mit der Funktion make_biclusters generiert, die eine Matrix mit kleinen Werten erstellt und Bicluster mit großen Werten eingefügt hat. Wir haben die Zeilen und Spalten des Datensatzes gemischt und ihn an den Spectral Co-Clustering-Algorithmus übergeben. Wir haben den Konsensus-Score der Bicluster berechnet und den gemischten Datensatz neu angeordnet, um die Bicluster zusammenhängend zu machen. Schließlich haben wir die Bicluster visualisiert, um zu zeigen, wie genau der Algorithmus sie gefunden hat.