用于改进分类的单变量特征选择

简介

本实验展示了如何使用单变量特征选择来提高噪声数据集上的分类准确率。在应用单变量特征选择之前和之后，均使用支持向量机（SVM）对数据集进行分类。对于每个特征，我们绘制单变量特征选择的 p 值以及 SVM 的相应权重。通过此操作，我们将比较模型准确率，并研究单变量特征选择对模型权重的影响。

虚拟机提示

虚拟机启动完成后，点击左上角切换到“笔记本”标签，以访问 Jupyter Notebook 进行练习。

有时，你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制，操作验证无法自动化。

如果你在学习过程中遇到问题，随时向 Labby 提问。课程结束后提供反馈，我们将立即为你解决问题。

生成示例数据

首先，我们将为演示生成一些示例数据。我们将使用鸢尾花数据集，并向其中添加一些不相关的噪声数据。

import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

## 鸢尾花数据集
X, y = load_iris(return_X_y=True)

## 一些不相关的噪声数据
E = np.random.RandomState(42).uniform(0, 0.1, size=(X.shape[0], 20))

## 将噪声数据添加到信息特征中
X = np.hstack((X, E))

## 分割数据集以选择特征并评估分类器
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

单变量特征选择

接下来，我们将使用 F 检验进行单变量特征选择以进行特征评分。我们将使用默认的选择函数来选择四个最显著的特征。

from sklearn.feature_selection import SelectKBest, f_classif

selector = SelectKBest(f_classif, k=4)
selector.fit(X_train, y_train)
scores = -np.log10(selector.pvalues_)
scores /= scores.max()

绘制单变量特征得分

我们可以绘制每个特征的单变量得分，以查看哪些特征是显著的。

import matplotlib.pyplot as plt

X_indices = np.arange(X.shape[-1])
plt.figure(1)
plt.clf()
plt.bar(X_indices - 0.05, scores, width=0.2)
plt.title("特征单变量得分")
plt.xlabel("特征编号")
plt.ylabel(r"单变量得分（$-Log(p_{值})$）")
plt.show()

与支持向量机比较

现在我们将比较有无单变量特征选择时支持向量机（SVM）的分类准确率。

无单变量特征选择

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import MinMaxScaler
from sklearn.svm import LinearSVC

clf = make_pipeline(MinMaxScaler(), LinearSVC(dual="auto"))
clf.fit(X_train, y_train)
print(
    "未选择特征时的分类准确率：{:.3f}".format(
        clf.score(X_test, y_test)
    )
)

svm_weights = np.abs(clf[-1].coef_).sum(axis=0)
svm_weights /= svm_weights.sum()

单变量特征选择后

clf_selected = make_pipeline(
    SelectKBest(f_classif, k=4), MinMaxScaler(), LinearSVC(dual="auto")
)
clf_selected.fit(X_train, y_train)
print(
    "单变量特征选择后的分类准确率：{:.3f}".format(
        clf_selected.score(X_test, y_test)
    )
)

svm_weights_selected = np.abs(clf_selected[-1].coef_).sum(axis=0)
svm_weights_selected /= svm_weights_selected.sum()

绘制比较特征选择的图表

我们可以绘制每个特征的特征得分和权重，以查看单变量特征选择的影响。

plt.bar(
    X_indices - 0.45, scores, width=0.2, label=r"单变量得分（$-Log(p_{值})$）"
)

plt.bar(X_indices - 0.25, svm_weights, width=0.2, label="支持向量机权重")

plt.bar(
    X_indices[selector.get_support()] - 0.05,
    svm_weights_selected,
    width=0.2,
    label="选择后的支持向量机权重",
)

plt.title("比较特征选择")
plt.xlabel("特征编号")
plt.yticks(())
plt.axis("tight")
plt.legend(loc="upper right")
plt.show()

总结

本实验展示了如何使用单变量特征选择来提高在有噪声数据集上的分类准确率。我们生成了样本数据，进行了单变量特征选择，并比较了有无单变量特征选择时支持向量机（SVM）的分类准确率。我们还绘制了每个特征的特征得分和权重，以查看单变量特征选择的影响。