Graficar la importancia de permutación

Machine LearningMachine LearningBeginner
Practicar Ahora

This tutorial is from open-source community. Access the source code

💡 Este tutorial está traducido por IA desde la versión en inglés. Para ver la versión original, puedes hacer clic aquí

Introducción

En el aprendizaje automático, la importancia de las características es una herramienta valiosa para entender qué características tienen el mayor impacto en la variable objetivo. En este laboratorio, compararemos dos métodos de cálculo de la importancia de las características: la importancia de las características basada en impureza y la importancia de permutación. Utilizaremos un clasificador de bosque aleatorio en el conjunto de datos del Titanic para ilustrar las diferencias entre los dos métodos.

Consejos sobre la VM

Una vez finalizada la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills ml/sklearn -.-> lab-49245{{"Graficar la importancia de permutación"}} end

Carga de datos y ingeniería de características

Utilizaremos pandas para cargar una copia del conjunto de datos del Titanic. También agregaremos dos variables aleatorias que no están correlacionadas con la variable objetivo. Preprocesaremos los datos utilizando OrdinalEncoder y SimpleImputer.

Definir y entrenar un clasificador de bosque aleatorio

Definiremos un clasificador de bosque aleatorio utilizando RandomForestClassifier y lo entrenaremos con los datos preprocesados.

Evaluar la precisión del modelo

Evaluaremos la precisión del clasificador de bosque aleatorio en los conjuntos de entrenamiento y prueba.

Importancia de las características de los árboles a partir de la disminución media de la impureza (MDI)

Calcularemos la importancia de las características basada en la impureza del clasificador de bosque aleatorio. Observaremos que este método puede exagerar la importancia de las características numéricas.

Importancias de permutación en el conjunto de prueba

Calcularemos las importancias de permutación del clasificador de bosque aleatorio en un conjunto de prueba separado. Observaremos que este método no está sesgado hacia las características de alta cardinalidad y es un mejor indicador de la importancia de las características.

Importancias de permutación en el conjunto de entrenamiento

Calcularemos las importancias de permutación del clasificador de bosque aleatorio en el conjunto de entrenamiento. Observaremos que la importancia de las características numéricas y categóricas aleatorias disminuye cuando la capacidad de sobreajuste de los árboles está limitada.

Importancias de permutación en un modelo de menor capacidad

Estableceremos min_samples_leaf en 20 y entrenaremos nuevamente el clasificador de bosque aleatorio. Calcularemos las importancias de permutación del clasificador de bosque aleatorio en los conjuntos de entrenamiento y prueba. Observaremos que la importancia de las características numéricas y categóricas aleatorias no predictivas disminuye aún más.

Resumen

En este laboratorio, comparamos la importancia de las características basada en la impureza con la importancia de permutación en el conjunto de datos del Titanic utilizando un clasificador de bosque aleatorio. Observamos que la importancia de las características basada en la impureza puede exagerar la importancia de las características numéricas y está sesgada hacia las características de alta cardinalidad. La importancia de permutación es un mejor indicador de la importancia de las características y no está sesgada hacia las características de alta cardinalidad. También observamos que limitar la capacidad de sobreajuste de los árboles puede disminuir la importancia de las características no predictivas.