非負最小二乗回帰をマスターする

はじめに

この実験では、回帰係数を非負に制約する線形回帰の一種である非負最小二乗回帰について学びます。このアルゴリズムを実装し、古典的な線形回帰と比較するために、Pythonのscikit - learnライブラリを使用します。

VMのヒント

VMの起動が完了したら、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebookを使って練習しましょう。

時々、Jupyter Notebookが読み込み終了するまで数秒待つ必要がある場合があります。Jupyter Notebookの制限により、操作の検証を自動化することはできません。

学習中に問題に遭遇した場合は、Labbyにお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"]) sklearn(("Sklearn")) -.-> sklearn/ModelSelectionandEvaluationGroup(["Model Selection and Evaluation"]) sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/linear_model("Linear Models") sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/model_selection("Model Selection") sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/metrics("Metrics") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/linear_model -.-> lab-49228{{"非負最小二乗回帰"}} sklearn/model_selection -.-> lab-49228{{"非負最小二乗回帰"}} sklearn/metrics -.-> lab-49228{{"非負最小二乗回帰"}} ml/sklearn -.-> lab-49228{{"非負最小二乗回帰"}} end

ランダムデータの生成

アルゴリズムをテストするために、いくつかのランダムデータを生成します。50個の特徴量を持つ200個のサンプルを作成し、各特徴量に対して真の係数を3とします。その後、係数を閾値処理して非負にします。最後に、サンプルにいくらかのノイズを追加します。

import numpy as np

np.random.seed(42)

n_samples, n_features = 200, 50
X = np.random.randn(n_samples, n_features)
true_coef = 3 * np.random.randn(n_features)
true_coef[true_coef < 0] = 0
y = np.dot(X, true_coef)
y += 5 * np.random.normal(size=(n_samples,))

データを学習用とテスト用に分割する

データを学習用セットとテスト用セットに分割します。それぞれのセットにデータの50％を割り当てます。

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)

非負最小二乗回帰を適合させる

ここでは、非負最小二乗回帰を使ってデータを適合させます。これは、scikit - learnのLinearRegressionクラスをpositive=Trueパラメータで使って行います。その後、テストセットの値を予測し、R2スコアを計算します。

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

reg_nnls = LinearRegression(positive=True)
y_pred_nnls = reg_nnls.fit(X_train, y_train).predict(X_test)
r2_score_nnls = r2_score(y_test, y_pred_nnls)
print("NNLS R2 score", r2_score_nnls)

古典的な線形回帰を適合させる

ここでは、古典的な線形回帰を使ってデータを適合させます。これは、scikit - learnのLinearRegressionクラスを使って行います。その後、テストセットの値を予測し、R2スコアを計算します。

reg_ols = LinearRegression()
y_pred_ols = reg_ols.fit(X_train, y_train).predict(X_test)
r2_score_ols = r2_score(y_test, y_pred_ols)
print("OLS R2 score", r2_score_ols)

回帰係数を比較する

ここでは、非負最小二乗回帰と古典的な線形回帰の間の回帰係数を比較します。係数同士をプロットし、それらが高度に相関していることを観察します。ただし、非負制約により、一部の係数が0に収束します。これは、非負最小二乗が本質的に疎な結果をもたらすためです。

import matplotlib.pyplot as plt

fig, ax = plt.subplots()
ax.plot(reg_ols.coef_, reg_nnls.coef_, linewidth=0, marker=".")

low_x, high_x = ax.get_xlim()
low_y, high_y = ax.get_ylim()
low = max(low_x, low_y)
high = min(high_x, high_y)
ax.plot([low, high], [low, high], ls="--", c=".3", alpha=0.5)
ax.set_xlabel("OLS regression coefficients", fontweight="bold")
ax.set_ylabel("NNLS regression coefficients", fontweight="bold")

まとめ

この実験では、非負最小二乗回帰とそれが古典的な線形回帰とどのように異なるかを学びました。scikit - learnを使ってこのアルゴリズムを実装し、ランダムなデータを生成して学習用セットとテスト用セットに分割することで、古典的な線形回帰と比較しました。その後、両モデルをデータに適合させ、テスト用セットの値を予測し、R2スコアを計算しました。最後に、2つのモデルの回帰係数を比較し、非負最小二乗回帰が疎な結果をもたらすことを観察しました。