绘制排列重要性

Machine LearningMachine LearningBeginner
立即练习

This tutorial is from open-source community. Access the source code

💡 本教程由 AI 辅助翻译自英文原版。如需查看原文,您可以 切换至英文原版

简介

在机器学习中,特征重要性是理解哪些特征对目标变量影响最大的一个有价值的工具。在本实验中,我们将比较两种计算特征重要性的方法:基于杂质的特征重要性和排列重要性。我们将在泰坦尼克号数据集上使用随机森林分类器来说明这两种方法之间的差异。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到“笔记本”标签页,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,随时向 Labby 提问。课程结束后提供反馈,我们会及时为你解决问题。


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills ml/sklearn -.-> lab-49245{{"绘制排列重要性"}} end

数据加载与特征工程

我们将使用 pandas 加载泰坦尼克号数据集的一个副本。我们还将添加两个与目标变量不相关的随机变量。我们将使用OrdinalEncoderSimpleImputer对数据进行预处理。

定义并训练随机森林分类器

我们将使用RandomForestClassifier定义一个随机森林分类器,并在预处理后的数据上对其进行训练。

评估模型准确性

我们将评估随机森林分类器在训练集和测试集上的准确性。

基于杂质平均减少量(MDI)的树的特征重要性

我们将计算随机森林分类器基于杂质的特征重要性。我们会发现这种方法可能会夸大数值特征的重要性。

测试集上的排列重要性

我们将在留出的测试集上计算随机森林分类器的排列重要性。我们会观察到这种方法不会偏向于高基数特征,并且是特征重要性的一个更好指标。

训练集上的排列重要性

我们将计算随机森林分类器在训练集上的排列重要性。我们会观察到,当树的过拟合能力受到限制时,随机数值特征和分类特征的重要性会降低。

低容量模型上的排列重要性

我们将把 min_samples_leaf 设置为 20,然后再次训练随机森林分类器。我们将计算随机森林分类器在训练集和测试集上的排列重要性。我们会观察到,非预测性的随机数值特征和分类特征的重要性会进一步降低。

总结

在本实验中,我们使用随机森林分类器,在泰坦尼克号数据集上比较了基于杂质的特征重要性和排列重要性。我们观察到,基于杂质的特征重要性可能会夸大数值特征的重要性,并且偏向于高基数特征。排列重要性是特征重要性的一个更好指标,并且不会偏向于高基数特征。我们还观察到,限制树的过拟合能力可以降低非预测性特征的重要性。