機械学習における因果解釈の探求

はじめに

この実験では、機械学習モデルが統計的な関連性の測定には役立つが、データに関する強力な仮定を行わない限り因果効果を推定することはできないことを示します。我々は、教育経済学における最も重要な問題の 1 つ、すなわち大学卒業が時給に与える因果効果は何かを答えようとする状況をシミュレートします。この問題の答えは政策立案者にとって極めて重要ですが、省略変数バイアスのために我々はその因果効果を特定することができません。

VM のヒント

VM の起動が完了した後、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebook を使った練習にアクセスします。

時々、Jupyter Notebook が読み込み終了するまで数秒待つ必要があります。Jupyter Notebook の制限により、操作の検証を自動化することはできません。

学習中に問題に直面した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

データセットを生成する

時給、勤務経験、能力、両親の時給、および大学卒業歴のシミュレートされたデータセットを生成します。勤務年数による勤務経験と能力の尺度は正規分布から抽出されます。両親のうち 1 人の時給はベータ分布から抽出されます。我々は、能力と両親の時給によってプラスの影響を受ける大学卒業歴の指標を作成します。最後に、我々は時給を、以前のすべての変数とランダムな成分の線形関数としてモデル化します。

完全に観測された変数を使って予測モデルを学習する

真の生成モデルが使用するすべての変数が利用可能であると仮定して、予測モデルである線形回帰モデルを学習します。経験、両親の時給、大学卒業歴、および能力などの特徴を使って時給を予測します。また、真の生成モデルの値を正確に再現することを示すために、モデル係数をプロットします。

部分的な観測値を使って予測モデルを学習する

今度は、能力の特徴を省略して予測モデルを学習します。この能力の特徴は、観測されないか、または無意識のうちに教育も測定する代用変数から推定されるだけです（例えば、IQ テストによる場合）。再び、経験、両親の時給、および大学卒業歴などの特徴を使って時給を予測します。そして、モデルの係数が真の生成モデルと異なるかどうかを確認します。省略された変数を補うために、モデルは大学卒業歴の特徴の係数を膨らませます。したがって、この係数値を真の生成モデルの因果効果として解釈することは誤りです。

学んだこと

機械学習モデルは因果効果の推定には設計されていません。我々は線形モデルを用いてこれを示しましたが、OVB はあらゆる種類のモデルに影響を与える可能性があります。いつも、係数やある特徴の変化によってもたらされる予測の変化を解釈する際には、問題の特徴と目的変数の両方と相関する可能性のある潜在的に観測されない変数を心に留めることが重要です。このような変数は混在変数と呼ばれます。混在の存在下で因果効果を推定するためには、研究者は通常、処置変数（例えば大学卒業歴）がランダム化された実験を行います。実験が非常に高価または非倫理的である場合、研究者は時々、道具変数（IV）推定などの他の因果推論手法を使用することができます。

まとめ

この実験は、機械学習モデルが因果効果の推定には設計されていないことを示しています。欠落変数バイアスにより、目的変数に対する特徴の真の因果効果を特定することができません。係数や予測の変化を解釈する際には、問題の特徴と目的変数の両方と相関する可能性のある潜在的に観測されない変数を心に留めることが重要です。

因果解釈のプロット