使用 KBinsDiscretizer 探索离散化策略

简介

在本实验中，我们将探索 Python 的 scikit-learn 库中KBinsDiscretizer类的不同策略。KBinsDiscretizer是一个用于通过对连续数据进行装箱，将连续特征离散化为分类特征的类。我们将通过将不同策略应用于不同数据集来可视化它们。

虚拟机使用提示

虚拟机启动完成后，点击左上角切换到笔记本标签，以访问 Jupyter Notebook 进行练习。

有时，你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制，操作验证无法自动化。

如果你在学习过程中遇到问题，请随时向 Labby 提问。课程结束后提供反馈，我们将立即为你解决问题。

导入库

我们将首先导入必要的库。我们将使用numpy、matplotlib.pyplot、make_blobs以及sklearn.preprocessing模块中的KBinsDiscretizer。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.datasets import make_blobs

创建数据集

为了便于可视化，我们将创建三个数据集。第一个数据集是一个随机集合，包含 200 个样本，其两个维度均服从 -3 到 3 之间的均匀分布。第二个数据集是使用sklearn.datasets中的make_blobs函数生成的 200 个样本集合。第三个数据集同样使用make_blobs函数生成。

n_samples = 200
centers_0 = np.array([[0, 0], [0, 5], [2, 4], [8, 8]])
centers_1 = np.array([[0, 0], [3, 1]])

X_list = [
    np.random.RandomState(42).uniform(-3, 3, size=(n_samples, 2)),
    make_blobs(
        n_samples=[n_samples // 10, n_samples * 4 // 10, n_samples // 10, n_samples * 4 // 10],
        cluster_std=0.5,
        centers=centers_0,
        random_state=42,
    )[0],
    make_blobs(
        n_samples=[n_samples // 5, n_samples * 4 // 5],
        cluster_std=0.5,
        centers=centers_1,
        random_state=42,
    )[0],
]

应用不同策略

现在，我们将把KBinsDiscretizer中可用的三种不同策略应用于每个数据集。这些策略分别是：

“uniform”（均匀）：在每个特征上进行均匀离散化，这意味着每个维度上的箱宽度是恒定的。
“quantile”（分位数）：基于分位数进行离散化，这意味着每个箱中的样本数量大致相同。
“kmeans”：离散化基于 KMeans 聚类过程的质心。

strategies = ["uniform", "quantile", "kmeans"]

figure = plt.figure(figsize=(14, 9))
i = 1
for ds_cnt, X in enumerate(X_list):
    ax = plt.subplot(len(X_list), len(strategies) + 1, i)
    ax.scatter(X[:, 0], X[:, 1], edgecolors="k")
    if ds_cnt == 0:
        ax.set_title("Input data", size=14)

    xx, yy = np.meshgrid(
        np.linspace(X[:, 0].min(), X[:, 0].max(), 300),
        np.linspace(X[:, 1].min(), X[:, 1].max(), 300),
    )
    grid = np.c_[xx.ravel(), yy.ravel()]

    ax.set_xlim(xx.min(), xx.max())
    ax.set_ylim(yy.min(), yy.max())
    ax.set_xticks(())
    ax.set_yticks(())

    i += 1
    ## transform the dataset with KBinsDiscretizer
    for strategy in strategies:
        enc = KBinsDiscretizer(n_bins=4, encode="ordinal", strategy=strategy)
        enc.fit(X)
        grid_encoded = enc.transform(grid)

        ax = plt.subplot(len(X_list), len(strategies) + 1, i)

        ## horizontal stripes
        horizontal = grid_encoded[:, 0].reshape(xx.shape)
        ax.contourf(xx, yy, horizontal, alpha=0.5)
        ## vertical stripes
        vertical = grid_encoded[:, 1].reshape(xx.shape)
        ax.contourf(xx, yy, vertical, alpha=0.5)

        ax.scatter(X[:, 0], X[:, 1], edgecolors="k")
        ax.set_xlim(xx.min(), xx.max())
        ax.set_ylim(yy.min(), yy.max())
        ax.set_xticks(())
        ax.set_yticks(())
        if ds_cnt == 0:
            ax.set_title("strategy='%s'" % (strategy,), size=14)

        i += 1

plt.tight_layout()
plt.show()

可视化结果

现在，我们将可视化对数据集应用不同策略后的结果。这些图表展示了离散编码保持恒定的区域。

总结

在本实验中，我们探索了 Python 的 scikit-learn 库中KBinsDiscretizer类可用的不同策略。我们创建了三个数据集，并将三种不同的策略分别应用于每个数据集。然后，我们对离散化的结果进行了可视化。

演示 KBinsDiscretizer 策略

简介

虚拟机使用提示

导入库

创建数据集

应用不同策略

可视化结果

总结