Введение
В этом лабораторном занятии мы исследуем различные стратегии, доступные в классе KBinsDiscretizer библиотеки scikit-learn для Python. KBinsDiscretizer - это класс для дискретизации непрерывных признаков в категориальные признаки путём группировки непрерывных данных. Мы визуализируем различные стратегии, применяя их к различным датасетам.
Советы по работе с ВМ
После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.
Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.
Импорт библиотек
Начнём с импорта необходимых библиотек. Будем использовать numpy, matplotlib.pyplot, make_blobs и KBinsDiscretizer из модуля sklearn.preprocessing.
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.datasets import make_blobs
Создание датасетов
Для целей визуализации мы создадим три датасета. Первый датасет будет состоять из 200 случайных выборок из равномерного распределения в обоих измерениях между -3 и 3. Второй датасет будет набором из 200 выборок, сгенерированных с использованием функции make_blobs из sklearn.datasets. Третий датасет также будет сгенерирован с использованием функции make_blobs.
n_samples = 200
centers_0 = np.array([[0, 0], [0, 5], [2, 4], [8, 8]])
centers_1 = np.array([[0, 0], [3, 1]])
X_list = [
np.random.RandomState(42).uniform(-3, 3, size=(n_samples, 2)),
make_blobs(
n_samples=[n_samples // 10, n_samples * 4 // 10, n_samples // 10, n_samples * 4 // 10],
cluster_std=0.5,
centers=centers_0,
random_state=42,
)[0],
make_blobs(
n_samples=[n_samples // 5, n_samples * 4 // 5],
cluster_std=0.5,
centers=centers_1,
random_state=42,
)[0],
]
Применение различных стратегий
Теперь применим три разные стратегии, доступные в KBinsDiscretizer, к каждому из датасетов. Стратегии следующие:
- 'uniform': Дискретизация равномерна по каждому признаку, что означает, что ширины интервалов постоянны по каждой размерности.
- 'quantile': Дискретизация выполняется по квантильным значениям, что означает, что каждый интервал содержит приблизительно одинаковое количество выборок.
- 'kmeans': Дискретизация основана на центроидах процедуры кластеризации KMeans.
strategies = ["uniform", "quantile", "kmeans"]
figure = plt.figure(figsize=(14, 9))
i = 1
for ds_cnt, X in enumerate(X_list):
ax = plt.subplot(len(X_list), len(strategies) + 1, i)
ax.scatter(X[:, 0], X[:, 1], edgecolors="k")
if ds_cnt == 0:
ax.set_title("Input data", size=14)
xx, yy = np.meshgrid(
np.linspace(X[:, 0].min(), X[:, 0].max(), 300),
np.linspace(X[:, 1].min(), X[:, 1].max(), 300),
)
grid = np.c_[xx.ravel(), yy.ravel()]
ax.set_xlim(xx.min(), xx.max())
ax.set_ylim(yy.min(), yy.max())
ax.set_xticks(())
ax.set_yticks(())
i += 1
## transform the dataset with KBinsDiscretizer
for strategy in strategies:
enc = KBinsDiscretizer(n_bins=4, encode="ordinal", strategy=strategy)
enc.fit(X)
grid_encoded = enc.transform(grid)
ax = plt.subplot(len(X_list), len(strategies) + 1, i)
## horizontal stripes
horizontal = grid_encoded[:, 0].reshape(xx.shape)
ax.contourf(xx, yy, horizontal, alpha=0.5)
## vertical stripes
vertical = grid_encoded[:, 1].reshape(xx.shape)
ax.contourf(xx, yy, vertical, alpha=0.5)
ax.scatter(X[:, 0], X[:, 1], edgecolors="k")
ax.set_xlim(xx.min(), xx.max())
ax.set_ylim(yy.min(), yy.max())
ax.set_xticks(())
ax.set_yticks(())
if ds_cnt == 0:
ax.set_title("strategy='%s'" % (strategy,), size=14)
i += 1
plt.tight_layout()
plt.show()
Визуализация результатов
Теперь мы визуализируем результаты применения различных стратегий к датасетам. Графики показывают области, где дискретизированная кодировка постоянна.
Резюме
В этом практическом занятии мы изучили различные стратегии, доступные в классе KBinsDiscretizer библиотеки scikit - learn для Python. Мы создали три датасета и применили к каждому из них три разные стратегии. Затем мы визуализировали результаты дискретизации.