使用交叉验证的 ROC

Machine LearningMachine LearningBeginner
立即练习

This tutorial is from open-source community. Access the source code

💡 本教程由 AI 辅助翻译自英文原版。如需查看原文,您可以 切换至英文原版

简介

在本实验中,我们将学习如何使用 Python 中的交叉验证来估计和可视化接收器操作特征(ROC)指标的方差。ROC 曲线用于二分类,通过绘制真阳性率(TPR)与假阳性率(FPR)来衡量模型的性能。我们将使用 Scikit-learn 库加载鸢尾花数据集,创建噪声特征,并使用支持向量机(SVM)对数据集进行分类。然后,我们将通过交叉验证绘制 ROC 曲线,并计算曲线下面积(AUC)的平均值,以了解当训练集被拆分为不同子集时分类器输出的可变性。

虚拟机提示

虚拟机启动完成后,点击左上角切换到“笔记本”标签,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,请随时向 Labby 提问。课程结束后提供反馈,我们将立即为你解决问题。


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/ModelSelectionandEvaluationGroup(["Model Selection and Evaluation"]) sklearn(("Sklearn")) -.-> sklearn/UtilitiesandDatasetsGroup(["Utilities and Datasets"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/model_selection("Model Selection") sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/metrics("Metrics") sklearn/UtilitiesandDatasetsGroup -.-> sklearn/datasets("Datasets") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/model_selection -.-> lab-49273{{"使用交叉验证的 ROC"}} sklearn/metrics -.-> lab-49273{{"使用交叉验证的 ROC"}} sklearn/datasets -.-> lab-49273{{"使用交叉验证的 ROC"}} ml/sklearn -.-> lab-49273{{"使用交叉验证的 ROC"}} end

加载并准备数据

首先,我们将使用 Scikit-learn 库加载鸢尾花数据集。鸢尾花数据集包含 3 类鸢尾植物,我们将通过删除一个类别来对数据集进行二值化处理,以创建一个二分类问题。我们还将添加噪声特征,使问题更具挑战性。

import numpy as np
from sklearn.datasets import load_iris

iris = load_iris()
target_names = iris.target_names
X, y = iris.data, iris.target
X, y = X[y!= 2], y[y!= 2]
n_samples, n_features = X.shape

## add noisy features
random_state = np.random.RandomState(0)
X = np.concatenate([X, random_state.randn(n_samples, 200 * n_features)], axis=1)

分类与 ROC 分析

接下来,我们将运行一个带有交叉验证的支持向量机(SVM)分类器,并逐折绘制 ROC 曲线。我们将使用 Scikit-learn 中的分层 k 折交叉验证(StratifiedKFold)来生成交叉验证分割。我们还将计算 ROC 曲线的平均 AUC,并通过绘制真阳性率(TPR)的标准差来观察分类器输出的可变性。

import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.metrics import auc
from sklearn.metrics import RocCurveDisplay
from sklearn.model_selection import StratifiedKFold

n_splits = 6
cv = StratifiedKFold(n_splits=n_splits)
classifier = svm.SVC(kernel="linear", probability=True, random_state=random_state)

tprs = []
aucs = []
mean_fpr = np.linspace(0, 1, 100)

fig, ax = plt.subplots(figsize=(6, 6))
for fold, (train, test) in enumerate(cv.split(X, y)):
    classifier.fit(X[train], y[train])
    viz = RocCurveDisplay.from_estimator(
        classifier,
        X[test],
        y[test],
        name=f"ROC fold {fold}",
        alpha=0.3,
        lw=1,
        ax=ax,
        plot_chance_level=(fold == n_splits - 1),
    )
    interp_tpr = np.interp(mean_fpr, viz.fpr, viz.tpr)
    interp_tpr[0] = 0.0
    tprs.append(interp_tpr)
    aucs.append(viz.roc_auc)

mean_tpr = np.mean(tprs, axis=0)
mean_tpr[-1] = 1.0
mean_auc = auc(mean_fpr, mean_tpr)
std_auc = np.std(aucs)
ax.plot(
    mean_fpr,
    mean_tpr,
    color="b",
    label=r"Mean ROC (AUC = %0.2f $\pm$ %0.2f)" % (mean_auc, std_auc),
    lw=2,
    alpha=0.8,
)

std_tpr = np.std(tprs, axis=0)
tprs_upper = np.minimum(mean_tpr + std_tpr, 1)
tprs_lower = np.maximum(mean_tpr - std_tpr, 0)
ax.fill_between(
    mean_fpr,
    tprs_lower,
    tprs_upper,
    color="grey",
    alpha=0.2,
    label=r"$\pm$ 1 std. dev.",
)

ax.set(
    xlim=[-0.05, 1.05],
    ylim=[-0.05, 1.05],
    xlabel="False Positive Rate",
    ylabel="True Positive Rate",
    title=f"Mean ROC curve with variability\n(Positive label '{target_names[1]}')",
)
ax.axis("square")
ax.legend(loc="lower right")
plt.show()

总结

在本实验中,我们学习了如何使用 Python 中的交叉验证来估计和可视化接收器操作特征(ROC)指标的方差。我们加载了鸢尾花数据集,创建了噪声特征,并使用支持向量机(SVM)对数据集进行分类。然后,我们通过交叉验证绘制了 ROC 曲线,并计算了平均 AUC,以了解当训练集被拆分为不同子集时分类器输出的可变性。ROC 曲线可以帮助我们评估二分类器的性能,并了解真阳性和假阳性之间的权衡。交叉验证可以帮助我们估计分类器输出的可变性,并为我们的问题选择最佳模型。