Сбалансировать сложность модели и оценку при кросс-валидации

Beginner

This tutorial is from open-source community. Access the source code

Введение

В этом практическом занятии мы научимся балансировать сложность модели и кросс-валидированный показатель качества, находя приемлемую точность в пределах 1 стандартного отклонения от наилучшего показателя точности, при этом минимизируя количество компонентов PCA. Мы будем использовать набор данных digits из scikit-learn и конвейер, состоящий из PCA и LinearSVC.

Советы по использованию ВМ

После запуска ВМ перейдите в левый верхний угол и переключитесь на вкладку Notebook, чтобы приступить к практике в Jupyter Notebook.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook полностью загрузится. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импорт библиотек

Начнем с импорта необходимых библиотек для этого практического занятия.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
from sklearn.decomposition import PCA
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.svm import LinearSVC

Определение функций

Мы определим две функции, которые будут использоваться позже в практическом занятии.

def lower_bound(cv_results):
    """
    Вычисляет нижнюю границу в пределах 1 стандартного отклонения
    от наилучшего значения `mean_test_scores`.

    Параметры
    ----------
    cv_results : dict of numpy(masked) ndarrays
        См. атрибут cv_results_ `GridSearchCV`

    Возвращает
    -------
    float
        Нижняя граница в пределах 1 стандартного отклонения от наилучшего
        значения `mean_test_score`.
    """
    best_score_idx = np.argmax(cv_results["mean_test_score"])

    return (
        cv_results["mean_test_score"][best_score_idx]
        - cv_results["std_test_score"][best_score_idx]
    )


def best_low_complexity(cv_results):
    """
    Балансирует сложность модели с кросс-валидированным показателем качества.

    Параметры
    ----------
    cv_results : dict of numpy(masked) ndarrays
        См. атрибут cv_results_ `GridSearchCV`.

    Возвращает
    -------
    int
        Индекс модели, которая имеет наименьшее количество компонентов PCA,
        при этом ее показатель качества теста находится в пределах 1 стандартного
        отклонения от наилучшего значения `mean_test_score`.
    """
    threshold = lower_bound(cv_results)
    candidate_idx = np.flatnonzero(cv_results["mean_test_score"] >= threshold)
    best_idx = candidate_idx[
        cv_results["param_reduce_dim__n_components"][candidate_idx].argmin()
    ]
    return best_idx

Загрузка данных и определение конвейера

Мы загрузим набор данных digits из scikit-learn и определим конвейер, состоящий из PCA и LinearSVC.

pipe = Pipeline(
    [
        ("reduce_dim", PCA(random_state=42)),
        ("classify", LinearSVC(random_state=42, C=0.01, dual="auto")),
    ]
)

X, y = load_digits(return_X_y=True)

Определение параметров для GridSearchCV

Мы определим параметры для GridSearchCV.

param_grid = {"reduce_dim__n_components": [6, 8, 10, 12, 14]}

Определение объекта GridSearchCV

Мы определим объект GridSearchCV и подгоним модель.

grid = GridSearchCV(
    pipe,
    cv=10,
    n_jobs=1,
    param_grid=param_grid,
    scoring="accuracy",
    refit=best_low_complexity,
)

grid.fit(X, y)

Визуализация результатов

Мы визуализируем результаты, построив график точности в зависимости от количества компонентов PCA.

n_components = grid.cv_results_["param_reduce_dim__n_components"]
test_scores = grid.cv_results_["mean_test_score"]

plt.figure()
plt.bar(n_components, test_scores, width=1.3, color="b")

lower = lower_bound(grid.cv_results_)
plt.axhline(np.max(test_scores), linestyle="--", color="y", label="Best score")
plt.axhline(lower, linestyle="--", color=".5", label="Best score - 1 std")

plt.title("Balance model complexity and cross-validated score")
plt.xlabel("Number of PCA components used")
plt.ylabel("Digit classification accuracy")
plt.xticks(n_components.tolist())
plt.ylim((0, 1.0))
plt.legend(loc="upper left")

best_index_ = grid.best_index_

print("The best_index_ is %d" % best_index_)
print("The n_components selected is %d" % n_components[best_index_])
print(
    "The corresponding accuracy score is %.2f"
    % grid.cv_results_["mean_test_score"][best_index_]
)
plt.show()

Резюме

В этом практическом занятии мы узнали, как балансировать сложность модели и оценку при кросс-валидации с использованием PCA и LinearSVC. Мы использовали GridSearchCV для нахождения наилучшего количества компонентов PCA, максимизируя показатель точности в пределах 1 стандартного отклонения от наилучшего результата. Мы также визуализировали результаты, чтобы лучше понять компромисс между сложностью модели и точностью.