Spektraler Co-Clustering-Algorithmus für die Biclustering

Einführung

In diesem Lab wird gezeigt, wie der Spectral Co-Clustering-Algorithmus verwendet wird, um einen Datensatz zu biclustern. Der Datensatz wird mit der Funktion make_biclusters erzeugt, die eine Matrix mit kleinen Werten erstellt und Bicluster mit großen Werten einfügt. Die Zeilen und Spalten werden dann gemischt und an den Spectral Co-Clustering-Algorithmus übergeben. Die Umordnung der gemischten Matrix, um die Bicluster zusammenhängend zu machen, zeigt, wie genau der Algorithmus die Bicluster gefunden hat.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Importieren von erforderlichen Bibliotheken

Wir müssen erforderliche Bibliotheken wie numpy, matplotlib, scikit-learn importieren.

import numpy as np
from matplotlib import pyplot as plt

from sklearn.datasets import make_biclusters
from sklearn.cluster import SpectralCoclustering
from sklearn.metrics import consensus_score

Erzeugen eines Datensatzes

Wir erzeugen einen Datensatz der Größe (300, 300) mit 5 Biclustern und einem Rauschen von 5 mithilfe der Funktion make_biclusters.

data, rows, columns = make_biclusters(shape=(300, 300), n_clusters=5, noise=5, shuffle=False, random_state=0)

Visualisierung des ursprünglichen Datensatzes

Wir visualisieren den ursprünglichen Datensatz mit der Funktion matshow().

plt.matshow(data, cmap=plt.cm.Blues)
plt.title("Original dataset")

Mischen des Datensatzes

Wir mischen den Datensatz mit der Funktion permutation() aus numpy.

rng = np.random.RandomState(0)
row_idx = rng.permutation(data.shape[0])
col_idx = rng.permutation(data.shape[1])
data = data[row_idx][:, col_idx]

Visualisierung des gemischten Datensatzes

Wir visualisieren den gemischten Datensatz mit der Funktion matshow().

plt.matshow(data, cmap=plt.cm.Blues)
plt.title("Shuffled dataset")

Anwenden des Spectral Co-Clustering-Algorithmus

Wir wenden den Spectral Co-Clustering-Algorithmus auf den gemischten Datensatz mit 5 Clustern an.

model = SpectralCoclustering(n_clusters=5, random_state=0)
model.fit(data)

Berechnung des Konsensus-Scores

Wir berechnen den Konsensus-Score der Bicluster mit der Funktion consensus_score().

score = consensus_score(model.biclusters_, (rows[:, row_idx], columns[:, col_idx]))
print("consensus score: {:.3f}".format(score))

Neuordnung des gemischten Datensatzes

Wir ordnen den gemischten Datensatz neu an, um die Bicluster zusammenhängend zu machen, mit der Funktion argsort() aus numpy.

fit_data = data[np.argsort(model.row_labels_)]
fit_data = fit_data[:, np.argsort(model.column_labels_)]

Visualisierung der Bicluster

Wir visualisieren die Bicluster mit der Funktion matshow().

plt.matshow(fit_data, cmap=plt.cm.Blues)
plt.title("After biclustering; rearranged to show biclusters")

Zusammenfassung

In diesem Lab haben wir gelernt, wie man einen Datensatz generiert und mit dem Spectral Co-Clustering-Algorithmus in Bicluster unterteilt. Der ursprüngliche Datensatz wurde mit der Funktion make_biclusters generiert, die eine Matrix mit kleinen Werten erstellt und Bicluster mit großen Werten eingefügt hat. Wir haben die Zeilen und Spalten des Datensatzes gemischt und ihn an den Spectral Co-Clustering-Algorithmus übergeben. Wir haben den Konsensus-Score der Bicluster berechnet und den gemischten Datensatz neu angeordnet, um die Bicluster zusammenhängend zu machen. Schließlich haben wir die Bicluster visualisiert, um zu zeigen, wie genau der Algorithmus sie gefunden hat.

Spektrales Co-Clustering-Algorithmus