Einführung
In diesem Lab wird gezeigt, wie man fehlende Daten in einem Datensatz mit verschiedenen Techniken in scikit-learn einträgt. Als Datensätze werden hier der Diabetes-Datensatz mit 10 Merkmalen und der Kalifornien-Wohnungs-Datensatz mit 8 Merkmalen verwendet. Die fehlenden Werte können mithilfe von SimpleImputer durch den Mittelwert, die Median oder den häufigsten Wert ersetzt werden. In diesem Lab werden verschiedene Imputations-Techniken untersucht, wie die Imputation mit einem konstanten Wert, die Imputation mit dem Mittelwert jedes Merkmals in Kombination mit einer Hilfsvariable für die Fehlendheitsanzeige, die k-nearest-neighbor-Imputation und die iterative Imputation.
Tipps für die VM
Nachdem der Start der VM abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.
Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.
Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.