Permutations-Wichtigkeit darstellen

Machine LearningMachine LearningBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In der maschinellen Lernmethode ist die Merkmalswichtigkeit ein wertvolles Werkzeug, um zu verstehen, welche Merkmale den größten Einfluss auf die Zielfunktion haben. In diesem Lab werden wir zwei Methoden zum Berechnen der Merkmalswichtigkeit vergleichen: die auf Unreinheit basierende Merkmalswichtigkeit und die Permutationswichtigkeit. Wir werden einen Zufälligen Wald-Klassifizierer auf dem Titanic-Datensatz verwenden, um die Unterschiede zwischen den beiden Methoden zu veranschaulichen.

VM-Tipps

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen von Jupyter Notebook nicht automatisiert werden.

Wenn Sie während des Lernens Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills ml/sklearn -.-> lab-49245{{"Permutations-Wichtigkeit darstellen"}} end

Datenladung und Feature Engineering

Wir werden pandas verwenden, um eine Kopie des Titanic-Datensatzes zu laden. Wir werden auch zwei Zufallsvariablen hinzufügen, die nicht mit der Zielfunktion korreliert sind. Wir werden die Daten mit OrdinalEncoder und SimpleImputer vorverarbeiten.

Definieren und trainieren eines Zufälligen Wald-Klassifizierers

Wir werden einen Zufälligen Wald-Klassifizierer mit RandomForestClassifier definieren und ihn auf den vorverarbeiteten Daten trainieren.

Bewerten der Modellgenauigkeit

Wir werden die Genauigkeit des Zufälligen Wald-Klassifizierers auf den Trainings- und Testdatenätzen bewerten.

Merkmalswichtigkeit eines Baumes aus der durchschnittlichen Verringerung der Unreinheit (MDI)

Wir werden die auf Unreinheit basierende Merkmalswichtigkeit des Zufälligen Wald-Klassifizierers berechnen. Wir werden feststellen, dass diese Methode die Wichtigkeit numerischer Merkmale überhöhen kann.

Permutations-Wichtigkeiten auf dem Testdatensatz

Wir werden die Permutations-Wichtigkeiten des Zufälligen Wald-Klassifizierers auf einem separaten Testdatensatz berechnen. Wir werden feststellen, dass diese Methode nicht voreingenommen gegenüber Merkmalen mit hoher Kardinalität ist und ein besserer Indikator für die Merkmalswichtigkeit ist.

Permutations-Wichtigkeiten auf dem Trainingsdatensatz

Wir werden die Permutations-Wichtigkeiten des Zufälligen Wald-Klassifizierers auf dem Trainingsdatensatz berechnen. Wir werden feststellen, dass die Wichtigkeit der zufälligen numerischen und kategorischen Merkmale abnimmt, wenn die Fähigkeit der Bäume, zu overfitten, begrenzt ist.

Permutations-Wichtigkeiten für ein Modell mit geringerer Kapazität

Wir werden min_samples_leaf auf 20 setzen und den Zufälligen Wald-Klassifizierer erneut trainieren. Wir werden die Permutations-Wichtigkeiten des Zufälligen Wald-Klassifizierers auf den Trainings- und Testdatenätzen berechnen. Wir werden feststellen, dass die Wichtigkeit der nicht prädiktiven zufälligen numerischen und kategorischen Merkmale weiter abnimmt.

Zusammenfassung

In diesem Lab haben wir die auf Unreinheit basierende Merkmalswichtigkeit mit der Permutations-Wichtigkeit auf dem Titanic-Datensatz mit einem Zufälligen Wald-Klassifizierer verglichen. Wir haben festgestellt, dass die auf Unreinheit basierende Merkmalswichtigkeit die Wichtigkeit numerischer Merkmale überhöhen und voreingenommen gegenüber Merkmalen mit hoher Kardinalität ist. Die Permutations-Wichtigkeit ist ein besserer Indikator für die Merkmalswichtigkeit und ist nicht voreingenommen gegenüber Merkmalen mit hoher Kardinalität. Wir haben auch festgestellt, dass die Begrenzung der Fähigkeit der Bäume, zu overfitten, die Wichtigkeit nicht prädiktiver Merkmale verringern kann.