データの準備
このステップでは、学習とテスト用のデータを準備します。sklearn.datasets
から load_digits
関数を使用してデータセットを取得します。その後、学習データを各方向に 1 ピクセルの線形シフトで乱して、人工的により多くのラベル付きデータを生成します。データを 0 から 1 の間でスケーリングします。
import numpy as np
from scipy.ndimage import convolve
from sklearn import datasets
from sklearn.preprocessing import minmax_scale
from sklearn.model_selection import train_test_split
def nudge_dataset(X, Y):
"""
これは、8x8 の画像を X で左右上下に 1px ずつ移動させることで、
元のデータセットの 5 倍のサイズのデータセットを生成します
"""
direction_vectors = [
[[0, 1, 0], [0, 0, 0], [0, 0, 0]],
[[0, 0, 0], [1, 0, 0], [0, 0, 0]],
[[0, 0, 0], [0, 0, 1], [0, 0, 0]],
[[0, 0, 0], [0, 0, 0], [0, 1, 0]],
]
def shift(x, w):
return convolve(x.reshape((8, 8)), mode="constant", weights=w).ravel()
X = np.concatenate(
[X] + [np.apply_along_axis(shift, 1, X, vector) for vector in direction_vectors]
)
Y = np.concatenate([Y for _ in range(5)], axis=0)
return X, Y
X, y = datasets.load_digits(return_X_y=True)
X = np.asarray(X, "float32")
X, Y = nudge_dataset(X, y)
X = minmax_scale(X, feature_range=(0, 1)) ## 0-1 スケーリング
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)