はじめに
この実験では、scikit-learn の RANSAC アルゴリズムを使って、欠陥のあるデータに線形モデルを強固に適合させる方法を示します。通常の線形回帰器は外れ値に敏感で、適合させた直線はデータの真の潜在的な関係から簡単にずれてしまう可能性があります。RANSAC 回帰器は自動的にデータをインライアとアウトライアに分割し、適合させた直線は特定されたインライアのみによって決定されます。私たちは、scikit-learn の make_regression データセットを使って外れ値を含むランダムなデータを生成し、その後、線形モデルと RANSAC 回帰器の両方をデータに適合させます。
VM のヒント
VM の起動が完了したら、左上隅をクリックして ノートブック タブに切り替えて、Jupyter Notebook を使った練習を行います。
時々、Jupyter Notebook が読み込み終了するまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証を自動化することはできません。
学習中に問題に遭遇した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。
ライブラリのインポートとデータの生成
必要なライブラリをインポートし、make_regression データセットを使ってランダムなデータを生成し、そのデータに外れ値を追加します。
import numpy as np
from matplotlib import pyplot as plt
from sklearn import linear_model, datasets
## Generate data
n_samples = 1000
n_outliers = 50
X, y, coef = datasets.make_regression(
n_samples=n_samples,
n_features=1,
n_informative=1,
noise=10,
coef=True,
random_state=0,
)
## Add outlier data
np.random.seed(0)
X[:n_outliers] = 3 + 0.5 * np.random.normal(size=(n_outliers, 1))
y[:n_outliers] = -3 + 10 * np.random.normal(size=n_outliers)
線形モデルの適合
scikit-learn の LinearRegression クラスを使って、データに線形モデルを適合させます。
## Fit line using all data
lr = linear_model.LinearRegression()
lr.fit(X, y)
RANSAC 回帰器の適合
scikit-learn の RANSACRegressor クラスを使って、データに RANSAC 回帰器を適合させます。
## Robustly fit linear model with RANSAC algorithm
ransac = linear_model.RANSACRegressor()
ransac.fit(X, y)
inlier_mask = ransac.inlier_mask_
outlier_mask = np.logical_not(inlier_mask)
推定モデルのデータ予測
線形モデルと RANSAC 回帰器のデータを予測し、それらの結果を比較します。
## Predict data of estimated models
line_X = np.arange(X.min(), X.max())[:, np.newaxis]
line_y = lr.predict(line_X)
line_y_ransac = ransac.predict(line_X)
推定係数の比較
真のモデル、線形モデル、および RANSAC 回帰器の推定係数を比較します。
## Compare estimated coefficients
print("Estimated coefficients (true, linear regression, RANSAC):")
print(coef, lr.coef_, ransac.estimator_.coef_)
結果の可視化
データと、線形モデルおよび RANSAC 回帰器の適合直線を描画します。
## Visualize the results
lw = 2
plt.scatter(
X[inlier_mask], y[inlier_mask], color="yellowgreen", marker=".", label="Inliers"
)
plt.scatter(
X[outlier_mask], y[outlier_mask], color="gold", marker=".", label="Outliers"
)
plt.plot(line_X, line_y, color="navy", linewidth=lw, label="Linear regressor")
plt.plot(
line_X,
line_y_ransac,
color="cornflowerblue",
linewidth=lw,
label="RANSAC regressor",
)
plt.legend(loc="lower right")
plt.xlabel("Input")
plt.ylabel("Response")
plt.show()
まとめ
この実験では、scikit-learn の RANSAC アルゴリズムを使って、故障したデータに対して線形モデルを強固に適合させる方法を示しました。make_regression データセットを使ってランダムなデータを生成し、データにアウトライアを追加し、線形モデルと RANSAC 回帰器の両方をデータに適合させ、2 つのモデルのデータを予測し、推定係数を比較し、結果を可視化しました。RANSAC 回帰器は自動的にデータをインライアとアウトライアに分割し、適合直線は特定されたインライアのみによって決定されるため、アウトライアが含まれるデータに対してモデルを適合させるためのより強固な方法になっています。