Оценка дисперсии ROC с использованием кросс-валидации

Введение

В этом практическом занятии мы научимся оценивать и визуализировать дисперсию метрики Receiver Operating Characteristic (ROC) с использованием кросс-валидации в Python. ROC-кривые используются в бинарной классификации для оценки качества модели путём построения отношения истинно-положительных случаев (TPR) к ложно-положительным (FPR). Мы будем использовать библиотеку Scikit-learn для загрузки датасета iris, создания шумовых признаков и классификации датасета с использованием Support Vector Machine (SVM). Затем мы построим ROC-кривые с использованием кросс-валидации и вычислим среднюю площадь под кривой (AUC), чтобы увидеть изменчивость выхода классификатора при разбиении обучающего набора на разные подмножества.

Советы по использованию ВМ

После запуска ВМ перейдите в левый верхний угол и переключитесь на вкладку Notebook, чтобы приступить к практике в Jupyter Notebook.

Иногда может потребоваться подождать несколько секунд, пока Jupyter Notebook полностью загрузится. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/ModelSelectionandEvaluationGroup(["Model Selection and Evaluation"]) sklearn(("Sklearn")) -.-> sklearn/UtilitiesandDatasetsGroup(["Utilities and Datasets"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/model_selection("Model Selection") sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/metrics("Metrics") sklearn/UtilitiesandDatasetsGroup -.-> sklearn/datasets("Datasets") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/model_selection -.-> lab-49273{{"ROC с использованием кросс-валидации"}} sklearn/metrics -.-> lab-49273{{"ROC с использованием кросс-валидации"}} sklearn/datasets -.-> lab-49273{{"ROC с использованием кросс-валидации"}} ml/sklearn -.-> lab-49273{{"ROC с использованием кросс-валидации"}} end

Загрузка и подготовка данных

Сначала мы загрузим датасет iris с использованием библиотеки Scikit-learn. Датасет iris содержит 3 класса ирисных растений, и мы бинаризируем датасет, удалив один класс, чтобы создать задачу бинарной классификации. Также мы добавим шумовые признаки, чтобы сделать задачу более сложной.

import numpy as np
from sklearn.datasets import load_iris

iris = load_iris()
target_names = iris.target_names
X, y = iris.data, iris.target
X, y = X[y!= 2], y[y!= 2]
n_samples, n_features = X.shape

## add noisy features
random_state = np.random.RandomState(0)
X = np.concatenate([X, random_state.randn(n_samples, 200 * n_features)], axis=1)

Классификация и анализ ROC

Далее мы запустим классификатор SVM с использованием кросс-валидации и построим ROC-кривые по каждому фолду. Мы будем использовать StratifiedKFold из Scikit-learn для генерации разбиений кросс-валидации. Также мы вычислим среднюю площадь под ROC-кривой и визуализируем изменчивость выхода классификатора, построив стандартное отклонение истинно-положительных случаев (TPR).

import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.metrics import auc
from sklearn.metrics import RocCurveDisplay
from sklearn.model_selection import StratifiedKFold

n_splits = 6
cv = StratifiedKFold(n_splits=n_splits)
classifier = svm.SVC(kernel="linear", probability=True, random_state=random_state)

tprs = []
aucs = []
mean_fpr = np.linspace(0, 1, 100)

fig, ax = plt.subplots(figsize=(6, 6))
for fold, (train, test) in enumerate(cv.split(X, y)):
    classifier.fit(X[train], y[train])
    viz = RocCurveDisplay.from_estimator(
        classifier,
        X[test],
        y[test],
        name=f"ROC fold {fold}",
        alpha=0.3,
        lw=1,
        ax=ax,
        plot_chance_level=(fold == n_splits - 1),
    )
    interp_tpr = np.interp(mean_fpr, viz.fpr, viz.tpr)
    interp_tpr[0] = 0.0
    tprs.append(interp_tpr)
    aucs.append(viz.roc_auc)

mean_tpr = np.mean(tprs, axis=0)
mean_tpr[-1] = 1.0
mean_auc = auc(mean_fpr, mean_tpr)
std_auc = np.std(aucs)
ax.plot(
    mean_fpr,
    mean_tpr,
    color="b",
    label=r"Mean ROC (AUC = %0.2f $\pm$ %0.2f)" % (mean_auc, std_auc),
    lw=2,
    alpha=0.8,
)

std_tpr = np.std(tprs, axis=0)
tprs_upper = np.minimum(mean_tpr + std_tpr, 1)
tprs_lower = np.maximum(mean_tpr - std_tpr, 0)
ax.fill_between(
    mean_fpr,
    tprs_lower,
    tprs_upper,
    color="grey",
    alpha=0.2,
    label=r"$\pm$ 1 std. dev.",
)

ax.set(
    xlim=[-0.05, 1.05],
    ylim=[-0.05, 1.05],
    xlabel="False Positive Rate",
    ylabel="True Positive Rate",
    title=f"Mean ROC curve with variability\n(Positive label '{target_names[1]}')",
)
ax.axis("square")
ax.legend(loc="lower right")
plt.show()

Вывод

В этом практическом занятии мы научились оценивать и визуализировать дисперсию метрики Receiver Operating Characteristic (ROC) с использованием кросс-валидации в Python. Мы загрузили датасет iris, создали шумовые признаки и классифицировали датасет с использованием SVM. Затем мы построили ROC-кривые с использованием кросс-валидации и вычислили среднюю площадь под кривой (AUC), чтобы увидеть изменчивость выхода классификатора при разбиении обучающего набора на разные подмножества. ROC-кривые помогают нам оценить качество бинарного классификатора и увидеть компромисс между истинно-положительными и ложно-положительными случаями. Кросс-валидация позволяет оценить изменчивость выхода классификатора и выбрать наилучшую модель для нашей задачи.