Classifier Chain Ensemble

Machine LearningMachine LearningBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab wird ein Beispiel für die Verwendung einer Klassifiziererkette auf einem mehrfachklassifizierten Datensatz demonstriert. Der Klassifiziererkettenalgorithmus ist eine Modifikation der Problemtransformationsmethode für die mehrfachklassifizierung. Diese Methode nutzt die Korrelation zwischen den Klassen, indem eine Kette binärer Klassifizierer aufgebaut wird. Jedes Modell erhält die Vorhersagen der vorherigen Modelle in der Kette als Merkmale. Wir werden den yeast-Datensatz verwenden, der 2417 Datensätze enthält, von denen jeder 103 Merkmale und 14 mögliche Labels hat. Jeder Datensatz hat mindestens ein Label. Als Referenzpunkt trainieren wir zunächst einen logistischen Regressionsklassifizierer für jedes der 14 Labels. Um die Leistung dieser Klassifizierer zu evaluieren, machen wir Vorhersagen auf einem separaten Testdatensatz und berechnen den Jaccard-Wert für jede Probe.

Tipps für die VM

Nachdem der Start der VM abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen von Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie sofort beheben.

Laden des yeast-Datensatzes

X, Y = fetch_openml("yeast", version=4, return_X_y=True, parser="pandas")
Y = Y == "TRUE"
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

Trainiere ein separates logistisches Regressionsmodell für jede Klasse

base_lr = LogisticRegression()
ovr = OneVsRestClassifier(base_lr)
ovr.fit(X_train, Y_train)
Y_pred_ovr = ovr.predict(X_test)
ovr_jaccard_score = jaccard_score(Y_test, Y_pred_ovr, average="samples")

Trainiere ein Ensemble von logistischen Regressionsklassifiziererketten

chains = [ClassifierChain(base_lr, order="random", random_state=i) for i in range(10)]
for chain in chains:
    chain.fit(X_train, Y_train)

Y_pred_chains = np.array([chain.predict(X_test) for chain in chains])
chain_jaccard_scores = [
    jaccard_score(Y_test, Y_pred_chain >= 0.5, average="samples")
    for Y_pred_chain in Y_pred_chains
]

Nehme die durchschnittliche Vorhersage aller Ketten

Y_pred_ensemble = Y_pred_chains.mean(axis=0)
ensemble_jaccard_score = jaccard_score(
    Y_test, Y_pred_ensemble >= 0.5, average="samples"
)

Zeichne die Jaccard-Ähnlichkeitswerte

model_scores = [ovr_jaccard_score] + chain_jaccard_scores
model_scores.append(ensemble_jaccard_score)

model_names = (
    "Independent",
    "Chain 1",
    "Chain 2",
    "Chain 3",
    "Chain 4",
    "Chain 5",
    "Chain 6",
    "Chain 7",
    "Chain 8",
    "Chain 9",
    "Chain 10",
    "Ensemble",
)

x_pos = np.arange(len(model_names))

fig, ax = plt.subplots(figsize=(7, 4))
ax.grid(True)
ax.set_title("Classifier Chain Ensemble Performance Comparison")
ax.set_xticks(x_pos)
ax.set_xticklabels(model_names, rotation="vertical")
ax.set_ylabel("Jaccard Similarity Score")
ax.set_ylim([min(model_scores) * 0.9, max(model_scores) * 1.1])
colors = ["r"] + ["b"] * len(chain_jaccard_scores) + ["g"]
ax.bar(x_pos, model_scores, alpha=0.5, color=colors)
plt.tight_layout()
plt.show()

Zusammenfassung

In diesem Lab wurde gezeigt, wie man den Classifier Chain-Algorithmus verwendet, um ein Ensemble von logistischen Regressionsklassifiziererketten zu erstellen, um auf Korrelationen zwischen den Klassen zurückzugreifen. Die Jaccard-Ähnlichkeitszahl für jede Kette tendiert dazu, größer zu sein als die der unabhängigen logistischen Modelle. Schließlich haben wir ein Abstimmungsensemble von Klassifiziererketten durch Mittelwertbildung der binären Vorhersagen der Ketten konstruiert und einen Schwellenwert von 0,5 angewandt. Die Jaccard-Ähnlichkeitszahl des Ensembles war größer als die der unabhängigen Modelle und tendierte, die Zahl jedes einzelnen Modells im Ensemble zu übertreffen.