Оптимизация гиперпараметров модели с использованием GridSearchCV

Beginner

This tutorial is from open-source community. Access the source code

Введение

В этом руководстве мы узнаем о функции GridSearchCV в Scikit-Learn. GridSearchCV - это функция, которая используется для поиска наилучших гиперпараметров для заданной модели. Это полный перебор по заданным значениям параметров для оценщика. Параметры оценщика, используемого для применения этих методов, оптимизируются с использованием кросс-валидации по сетке параметров.

Советы по работе с ВМ

После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импортируем библиотеки

Начнем с импорта необходимых библиотек.

import numpy as np
from matplotlib import pyplot as plt

from sklearn.datasets import make_hastie_10_2
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier

Загружаем датасет

В этом шаге мы загрузим датасет с использованием функции make_hastie_10_2 из Scikit-Learn. Эта функция генерирует синтетический датасет для бинарной классификации.

X, y = make_hastie_10_2(n_samples=8000, random_state=42)

Определяем гиперпараметры и метрики оценки

В этом шаге мы определим гиперпараметры для модели DecisionTreeClassifier и метрики оценки, которые будем использовать. Будем использовать метрики AUC (Area Under the Curve) и Accuracy.

scoring = {"AUC": "roc_auc", "Accuracy": make_scorer(accuracy_score)}

Выполняем сеточный поиск

В этом шаге мы будем использовать функцию GridSearchCV для выполнения сеточного поиска. Мы будем искать наилучшие гиперпараметры для параметра min_samples_split модели DecisionTreeClassifier.

gs = GridSearchCV(
    DecisionTreeClassifier(random_state=42),
    param_grid={"min_samples_split": range(2, 403, 20)},
    scoring=scoring,
    refit="AUC",
    n_jobs=2,
    return_train_score=True,
)
gs.fit(X, y)
results = gs.cv_results_

Визуализируем результаты

В этом шаге мы визуализируем результаты сеточного поиска с помощью графика. Будем строить графики оценок AUC и Accuracy для обучающей и тестовой выборок.

plt.figure(figsize=(13, 13))
plt.title("GridSearchCV evaluating using multiple scorers simultaneously", fontsize=16)

plt.xlabel("min_samples_split")
plt.ylabel("Score")

ax = plt.gca()
ax.set_xlim(0, 402)
ax.set_ylim(0.73, 1)

## Get the regular numpy array from the MaskedArray
X_axis = np.array(results["param_min_samples_split"].data, dtype=float)

for scorer, color in zip(sorted(scoring), ["g", "k"]):
    for sample, style in (("train", "--"), ("test", "-")):
        sample_score_mean = results["mean_%s_%s" % (sample, scorer)]
        sample_score_std = results["std_%s_%s" % (sample, scorer)]
        ax.fill_between(
            X_axis,
            sample_score_mean - sample_score_std,
            sample_score_mean + sample_score_std,
            alpha=0.1 if sample == "test" else 0,
            color=color,
        )
        ax.plot(
            X_axis,
            sample_score_mean,
            style,
            color=color,
            alpha=1 if sample == "test" else 0.7,
            label="%s (%s)" % (scorer, sample),
        )

    best_index = np.nonzero(results["rank_test_%s" % scorer] == 1)[0][0]
    best_score = results["mean_test_%s" % scorer][best_index]

    ## Plot a dotted vertical line at the best score for that scorer marked by x
    ax.plot(
        [
            X_axis[best_index],
        ]
        * 2,
        [0, best_score],
        linestyle="-.",
        color=color,
        marker="x",
        markeredgewidth=3,
        ms=8,
    )

    ## Annotate the best score for that scorer
    ax.annotate("%0.2f" % best_score, (X_axis[best_index], best_score + 0.005))

plt.legend(loc="best")
plt.grid(False)
plt.show()

Резюме

В этом уроке мы узнали о функции GridSearchCV в Scikit-Learn. Мы увидели, как загрузить датасет, определить гиперпараметры и метрики оценки, выполнить сеточный поиск и визуализировать результаты с помощью графика. GridSearchCV - важная функция для поиска наилучших гиперпараметров для заданной модели.