Исследование стратегий дискретизации с использованием KBinsDiscretizer

Введение

В этом лабораторном занятии мы исследуем различные стратегии, доступные в классе KBinsDiscretizer библиотеки scikit-learn для Python. KBinsDiscretizer - это класс для дискретизации непрерывных признаков в категориальные признаки путём группировки непрерывных данных. Мы визуализируем различные стратегии, применяя их к различным датасетам.

Советы по работе с ВМ

После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импорт библиотек

Начнём с импорта необходимых библиотек. Будем использовать numpy, matplotlib.pyplot, make_blobs и KBinsDiscretizer из модуля sklearn.preprocessing.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.datasets import make_blobs

Создание датасетов

Для целей визуализации мы создадим три датасета. Первый датасет будет состоять из 200 случайных выборок из равномерного распределения в обоих измерениях между -3 и 3. Второй датасет будет набором из 200 выборок, сгенерированных с использованием функции make_blobs из sklearn.datasets. Третий датасет также будет сгенерирован с использованием функции make_blobs.

n_samples = 200
centers_0 = np.array([[0, 0], [0, 5], [2, 4], [8, 8]])
centers_1 = np.array([[0, 0], [3, 1]])

X_list = [
    np.random.RandomState(42).uniform(-3, 3, size=(n_samples, 2)),
    make_blobs(
        n_samples=[n_samples // 10, n_samples * 4 // 10, n_samples // 10, n_samples * 4 // 10],
        cluster_std=0.5,
        centers=centers_0,
        random_state=42,
    )[0],
    make_blobs(
        n_samples=[n_samples // 5, n_samples * 4 // 5],
        cluster_std=0.5,
        centers=centers_1,
        random_state=42,
    )[0],
]

Применение различных стратегий

Теперь применим три разные стратегии, доступные в KBinsDiscretizer, к каждому из датасетов. Стратегии следующие:

'uniform': Дискретизация равномерна по каждому признаку, что означает, что ширины интервалов постоянны по каждой размерности.
'quantile': Дискретизация выполняется по квантильным значениям, что означает, что каждый интервал содержит приблизительно одинаковое количество выборок.
'kmeans': Дискретизация основана на центроидах процедуры кластеризации KMeans.

strategies = ["uniform", "quantile", "kmeans"]

figure = plt.figure(figsize=(14, 9))
i = 1
for ds_cnt, X in enumerate(X_list):
    ax = plt.subplot(len(X_list), len(strategies) + 1, i)
    ax.scatter(X[:, 0], X[:, 1], edgecolors="k")
    if ds_cnt == 0:
        ax.set_title("Input data", size=14)

    xx, yy = np.meshgrid(
        np.linspace(X[:, 0].min(), X[:, 0].max(), 300),
        np.linspace(X[:, 1].min(), X[:, 1].max(), 300),
    )
    grid = np.c_[xx.ravel(), yy.ravel()]

    ax.set_xlim(xx.min(), xx.max())
    ax.set_ylim(yy.min(), yy.max())
    ax.set_xticks(())
    ax.set_yticks(())

    i += 1
    ## transform the dataset with KBinsDiscretizer
    for strategy in strategies:
        enc = KBinsDiscretizer(n_bins=4, encode="ordinal", strategy=strategy)
        enc.fit(X)
        grid_encoded = enc.transform(grid)

        ax = plt.subplot(len(X_list), len(strategies) + 1, i)

        ## horizontal stripes
        horizontal = grid_encoded[:, 0].reshape(xx.shape)
        ax.contourf(xx, yy, horizontal, alpha=0.5)
        ## vertical stripes
        vertical = grid_encoded[:, 1].reshape(xx.shape)
        ax.contourf(xx, yy, vertical, alpha=0.5)

        ax.scatter(X[:, 0], X[:, 1], edgecolors="k")
        ax.set_xlim(xx.min(), xx.max())
        ax.set_ylim(yy.min(), yy.max())
        ax.set_xticks(())
        ax.set_yticks(())
        if ds_cnt == 0:
            ax.set_title("strategy='%s'" % (strategy,), size=14)

        i += 1

plt.tight_layout()
plt.show()

Визуализация результатов

Теперь мы визуализируем результаты применения различных стратегий к датасетам. Графики показывают области, где дискретизированная кодировка постоянна.

Резюме

В этом практическом занятии мы изучили различные стратегии, доступные в классе KBinsDiscretizer библиотеки scikit - learn для Python. Мы создали три датасета и применили к каждому из них три разные стратегии. Затем мы визуализировали результаты дискретизации.

Демонстрация стратегий KBinsDiscretizer