Einführung
In diesem Lab wird gezeigt, wie verschiedene Aufbereitungs- und Merkmalsgewinnungspipelines auf verschiedene Teilmengen von Merkmalen angewendet werden können, indem ColumnTransformer
verwendet wird. Dies ist besonders nützlich bei Datensätzen, die heterogene Datentypen enthalten, da wir möglicherweise die numerischen Merkmale skalieren und die kategorischen Merkmale mit One-Hot-Codierung versehen möchten.
In diesem Lab verwenden wir den Titanic-Datensatz von OpenML, um eine Pipeline zu erstellen, die sowohl kategorische als auch numerische Daten mit ColumnTransformer
aufbereitet und diese verwendet, um ein logistisches Regressionsmodell zu trainieren.
Tipps für die VM
Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.
Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen in Jupyter Notebook nicht automatisiert werden.
Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.
Skills Graph
%%%%{init: {'theme':'neutral'}}%%%%
flowchart RL
sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"])
sklearn(("Sklearn")) -.-> sklearn/DataPreprocessingandFeatureEngineeringGroup(["Data Preprocessing and Feature Engineering"])
sklearn(("Sklearn")) -.-> sklearn/UtilitiesandDatasetsGroup(["Utilities and Datasets"])
ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"])
sklearn(("Sklearn")) -.-> sklearn/ModelSelectionandEvaluationGroup(["Model Selection and Evaluation"])
sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/linear_model("Linear Models")
sklearn/DataPreprocessingandFeatureEngineeringGroup -.-> sklearn/preprocessing("Preprocessing and Normalization")
sklearn/DataPreprocessingandFeatureEngineeringGroup -.-> sklearn/feature_selection("Feature Selection")
sklearn/DataPreprocessingandFeatureEngineeringGroup -.-> sklearn/pipeline("Pipeline")
sklearn/DataPreprocessingandFeatureEngineeringGroup -.-> sklearn/impute("Impute")
sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/model_selection("Model Selection")
sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/compose("Composite Estimators")
sklearn/UtilitiesandDatasetsGroup -.-> sklearn/datasets("Datasets")
ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn")
subgraph Lab Skills
sklearn/linear_model -.-> lab-49086{{"Column Transformer mit gemischten Datentypen"}}
sklearn/preprocessing -.-> lab-49086{{"Column Transformer mit gemischten Datentypen"}}
sklearn/feature_selection -.-> lab-49086{{"Column Transformer mit gemischten Datentypen"}}
sklearn/pipeline -.-> lab-49086{{"Column Transformer mit gemischten Datentypen"}}
sklearn/impute -.-> lab-49086{{"Column Transformer mit gemischten Datentypen"}}
sklearn/model_selection -.-> lab-49086{{"Column Transformer mit gemischten Datentypen"}}
sklearn/compose -.-> lab-49086{{"Column Transformer mit gemischten Datentypen"}}
sklearn/datasets -.-> lab-49086{{"Column Transformer mit gemischten Datentypen"}}
ml/sklearn -.-> lab-49086{{"Column Transformer mit gemischten Datentypen"}}
end