Gráfico de Importância por Permutação

Beginner

This tutorial is from open-source community. Access the source code

Introdução

No aprendizado de máquina, a importância das características é uma ferramenta valiosa para compreender quais características têm o maior impacto na variável-alvo. Neste laboratório, compararemos dois métodos para calcular a importância das características: a importância das características baseada em impureza e a importância por permutação. Usaremos um classificador de floresta aleatória no conjunto de dados do Titanic para ilustrar as diferenças entre os dois métodos.

Dicas da Máquina Virtual

Após o arranque da máquina virtual, clique no canto superior esquerdo para mudar para a aba Notebook para aceder ao Jupyter Notebook para praticar.

Por vezes, pode ser necessário esperar alguns segundos para o Jupyter Notebook terminar de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se tiver problemas durante o aprendizado, não hesite em contactar o Labby. Forneça feedback após a sessão e resolveremos prontamente o problema para si.

Carregamento de Dados e Engenharia de Características

Usaremos o pandas para carregar uma cópia do conjunto de dados do Titanic. Também adicionaremos duas variáveis aleatórias que não estão correlacionadas com a variável-alvo. Pré-processaremos os dados usando OrdinalEncoder e SimpleImputer.

Definir e Treinar o Classificador de Floresta Aleatória

Definiremos um classificador de floresta aleatória usando RandomForestClassifier e o treinaremos nos dados pré-processados.

Avaliar a Precisão do Modelo

Avaliaremos a precisão do classificador de floresta aleatória nos conjuntos de treinamento e teste.

Importância de Recursos da Árvore a Partir da Diminuição Média da Impureza (MDI)

Calcularemos a importância dos recursos baseada na impureza do classificador de floresta aleatória. Observaremos que este método pode inflar a importância de recursos numéricos.

Importâncias por Permutação no Conjunto de Teste

Calcularemos as importâncias por permutação do classificador de floresta aleatória num conjunto de teste separado. Observaremos que este método não é tendencioso para recursos com alta cardinalidade e é um melhor indicador da importância dos recursos.

Importâncias por Permutação no Conjunto de Treino

Calcularemos as importâncias por permutação do classificador de floresta aleatória no conjunto de treino. Observaremos que a importância dos recursos numéricos e categóricos aleatórios diminui quando a capacidade das árvores de sobreajustar é limitada.

Importâncias por Permutação em Modelo de Menor Capacidade

Definiremos min_samples_leaf como 20 e treinaremos novamente o classificador de floresta aleatória. Calcularemos as importâncias por permutação do classificador de floresta aleatória nos conjuntos de treino e teste. Observaremos que a importância dos recursos numéricos e categóricos aleatórios não preditivos diminui ainda mais.

Resumo

Neste laboratório, comparamos a importância de características baseada em impureza com a importância por permutação no conjunto de dados Titanic utilizando um classificador de floresta aleatória. Observamos que a importância de características baseada em impureza pode inflar a importância de características numéricas e é tendenciosa para características com alta cardinalidade. A importância por permutação é um melhor indicador da importância das características e não é tendenciosa para características com alta cardinalidade. Também observamos que limitar a capacidade das árvores de sobreajustamento pode diminuir a importância de características não preditivas.