Wahrscheinlichkeitskalibrierung von Klassifizierern

Machine LearningMachine LearningBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

Beim Klassifizierungstask ist es oft wichtig, nicht nur das Klassenlabel zu prognostizieren, sondern auch die zugehörige Wahrscheinlichkeit. Die Wahrscheinlichkeit gibt das Vertrauen in die Prognose an. Allerdings liefern nicht alle Klassifizierer gut kalibrierte Wahrscheinlichkeiten, einige sind überzeugt, während andere zu unzuverlässig sind. Eine separate Kalibrierung der vorhergesagten Wahrscheinlichkeiten ist oft als Nachverarbeitung wünschenswert. In diesem Lab werden zwei verschiedene Methoden für diese Kalibrierung gezeigt und die Qualität der zurückgegebenen Wahrscheinlichkeiten mit Hilfe des Brier-Scores bewertet.

VM-Tipps

Nachdem die VM gestartet ist, klicken Sie in der linken oberen Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen von Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Synthetisches Dataset generieren

Zunächst generieren wir ein synthetisches Dataset, das drei Blobs mit zwei Klassen enthält, wobei der zweite Blob die Hälfte positive und die Hälfte negative Proben enthält. Die Wahrscheinlichkeit in diesem Blob beträgt daher 0,5.

Gaussian Naive-Bayes

Wir verwenden Gaussian Naive-Bayes zur Klassifizierung, bei dem die Wahrscheinlichkeiten oft schlecht kalibriert sind. Wir vergleichen die geschätzte Wahrscheinlichkeit unter Verwendung eines Gaussian Naive Bayes-Klassifizierers ohne Kalibrierung, mit einer Sigmoid-Kalibrierung und mit einer nicht-parametrischen isotonen Kalibrierung.

Daten und vorhergesagte Wahrscheinlichkeiten plotten

Wir plotten die Daten und die vorhergesagten Wahrscheinlichkeiten.

Zusammenfassung

In diesem Lab haben wir ein synthetisches Dataset generiert, Gaussian Naive-Bayes zur Klassifizierung verwendet und die geschätzte Wahrscheinlichkeit unter Verwendung eines Gaussian Naive Bayes-Klassifizierers ohne Kalibrierung, mit einer Sigmoid-Kalibrierung und mit einer nicht-parametrischen isotonen Kalibrierung verglichen. Anschließend haben wir die Daten und die vorhergesagten Wahrscheinlichkeiten geplottet. Indem wir die Brier-Score-Verluste verglichen, haben wir festgestellt, dass nur das nicht-parametrische Modell in der Lage ist, eine Wahrscheinlichkeitskalibrierung zu liefern, die für die meisten der zu der mittleren Gruppe gehörenden Proben mit heterogenen Labels Wahrscheinlichkeiten liefert, die nahe an der erwarteten 0,5 liegen. Dies führt zu einem signifikanten Verbesserung des Brier-Scores.