Einführung
Im maschinellen Lernen teilen wir unsere Daten oft in einen Trainingsdatensatz und einen Testdatensatz auf, um die Leistung eines Modells zu bewerten. Diese Bewertung kann jedoch stark davon abhängen, welche Datenpunkte im Trainingsdatensatz und welche im Testdatensatz landen. Eine robustere Methode ist die Kreuzvalidierung (Cross-Validation, CV).
Warum Kreuzvalidierung?
- Reduziert das Risiko von Overfitting: Testet das Modell auf mehreren Datenaufteilungen
- Bessere Generalisierungsschätzung: Zuverlässigere Leistung auf ungesehenen Daten
- Maximiert die Datennutzung: Jede Stichprobe wird sowohl für das Training als auch für das Testen verwendet
Bei der Kreuzvalidierung wird der Datensatz in mehrere "Folds" (Teile) aufgeteilt und das Modell dann mehrmals trainiert und bewertet, wobei jedes Mal ein anderer Fold zum Testen verwendet wird. Dies liefert uns eine zuverlässigere Schätzung der Modellleistung auf ungesehenen Daten.
In diesem Lab lernen Sie, wie Sie die leistungsstarken und praktischen Funktionen von scikit-learn verwenden, um eine Kreuzvalidierung auf einem Klassifikator mit dem berühmten Iris-Datensatz durchzuführen. Sie lernen, cross_val_score zu verwenden, um Leistungswerte zu erhalten, und dann deren Mittelwert und Standardabweichung zu berechnen, um die Stabilität und die Gesamtgenauigkeit des Modells besser zu verstehen.



