非負最小二乗回帰をマスターする

はじめに

この実験では、回帰係数を非負に制約する線形回帰の一種である非負最小二乗回帰について学びます。このアルゴリズムを実装し、古典的な線形回帰と比較するために、Python の scikit - learn ライブラリを使用します。

VM のヒント

VM の起動が完了したら、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebook を使って練習しましょう。

時々、Jupyter Notebook が読み込み終了するまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証を自動化することはできません。

学習中に問題に遭遇した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

ランダムデータの生成

アルゴリズムをテストするために、いくつかのランダムデータを生成します。50 個の特徴量を持つ 200 個のサンプルを作成し、各特徴量に対して真の係数を 3 とします。その後、係数を閾値処理して非負にします。最後に、サンプルにいくらかのノイズを追加します。

import numpy as np

np.random.seed(42)

n_samples, n_features = 200, 50
X = np.random.randn(n_samples, n_features)
true_coef = 3 * np.random.randn(n_features)
true_coef[true_coef < 0] = 0
y = np.dot(X, true_coef)
y += 5 * np.random.normal(size=(n_samples,))

データを学習用とテスト用に分割する

データを学習用セットとテスト用セットに分割します。それぞれのセットにデータの 50％を割り当てます。

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)

非負最小二乗回帰を適合させる

ここでは、非負最小二乗回帰を使ってデータを適合させます。これは、scikit - learn のLinearRegressionクラスをpositive=Trueパラメータで使って行います。その後、テストセットの値を予測し、R2 スコアを計算します。

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

reg_nnls = LinearRegression(positive=True)
y_pred_nnls = reg_nnls.fit(X_train, y_train).predict(X_test)
r2_score_nnls = r2_score(y_test, y_pred_nnls)
print("NNLS R2 score", r2_score_nnls)

古典的な線形回帰を適合させる

ここでは、古典的な線形回帰を使ってデータを適合させます。これは、scikit - learn のLinearRegressionクラスを使って行います。その後、テストセットの値を予測し、R2 スコアを計算します。

reg_ols = LinearRegression()
y_pred_ols = reg_ols.fit(X_train, y_train).predict(X_test)
r2_score_ols = r2_score(y_test, y_pred_ols)
print("OLS R2 score", r2_score_ols)

回帰係数を比較する

ここでは、非負最小二乗回帰と古典的な線形回帰の間の回帰係数を比較します。係数同士をプロットし、それらが高度に相関していることを観察します。ただし、非負制約により、一部の係数が 0 に収束します。これは、非負最小二乗が本質的に疎な結果をもたらすためです。

import matplotlib.pyplot as plt

fig, ax = plt.subplots()
ax.plot(reg_ols.coef_, reg_nnls.coef_, linewidth=0, marker=".")

low_x, high_x = ax.get_xlim()
low_y, high_y = ax.get_ylim()
low = max(low_x, low_y)
high = min(high_x, high_y)
ax.plot([low, high], [low, high], ls="--", c=".3", alpha=0.5)
ax.set_xlabel("OLS regression coefficients", fontweight="bold")
ax.set_ylabel("NNLS regression coefficients", fontweight="bold")

まとめ

この実験では、非負最小二乗回帰とそれが古典的な線形回帰とどのように異なるかを学びました。scikit - learn を使ってこのアルゴリズムを実装し、ランダムなデータを生成して学習用セットとテスト用セットに分割することで、古典的な線形回帰と比較しました。その後、両モデルをデータに適合させ、テスト用セットの値を予測し、R2 スコアを計算しました。最後に、2 つのモデルの回帰係数を比較し、非負最小二乗回帰が疎な結果をもたらすことを観察しました。