Entdecken der kausalen Interpretation in Machine Learning

Einführung

In diesem Lab wird gezeigt, dass Machine Learning-Modelle gut geeignet sind, um statistische Assoziationen zu messen, aber ohne starke Annahmen über die Daten nicht in der Lage sind, kausale Effekte zu schließen. Wir werden eine Situation simulieren, in der wir versuchen, eine der wichtigsten Fragen der Bildungsökonomie zu beantworten: Was ist der kausale Effekt eines Hochschulabschlusses auf die Stundenlöhne? Obwohl die Antwort auf diese Frage für Politiker von entscheidender Bedeutung ist, verhindern fehlende Variablen-Bias uns, diesen kausalen Effekt zu identifizieren.

VM-Tipps

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Generieren des Datensatzes

Wir generieren einen simulierten Datensatz von Stundenlöhnen, Arbeitserfahrung, Fähigkeiten, elterlichen Stundenlöhnen und Hochschulabschlüssen. Die Arbeitserfahrung in Jahren und ein Maß für die Fähigkeiten werden aus Normalverteilungen gezogen. Der Stundenlohn eines der Eltern wird aus einer Beta-Verteilung gezogen. Wir erstellen einen Indikator für den Hochschulabschluss, der positiv von Fähigkeiten und elterlichen Stundenlöhnen beeinflusst wird. Schließlich modellieren wir die Stundenlöhne als lineare Funktion aller vorherigen Variablen und einer zufälligen Komponente.

Trainieren von prädiktiven Modellen mit vollständig beobachteten Variablen

Wir trainieren ein prädiktives Modell, ein lineares Regressionsmodell, unter der Annahme, dass alle Variablen, die vom wahren generativen Modell verwendet werden, verfügbar sind. Wir prognostizieren die Stundenlöhne unter Verwendung von Merkmalen wie Erfahrung, elterlichen Stundenlohn, Hochschulabschluss und Fähigkeiten. Wir zeichnen auch die Modellkoeffizienten auf, um zu zeigen, dass wir die Werte des wahren generativen Modells genau wiedergewinnen.

Trainieren von prädiktiven Modellen mit partiellen Beobachtungen

Wir trainieren erneut ein prädiktives Modell, aber diesmal weglassen wir das Fähigkeitsmerkmal, das nicht beobachtet wird oder nur aus Proxies geschätzt wird, die versehentlich auch Bildung messen (z.B. durch IQ-Tests). Wir prognostizieren die Stundenlöhne erneut unter Verwendung von Merkmalen wie Erfahrung, elterlichen Stundenlohn und Hochschulabschluss. Wir überprüfen dann, ob die Koeffizienten des Modells von denen des wahren generativen Modells unterschiedlich sind. Um den fehlenden Variablen auszugleichen, erhöht das Modell den Koeffizienten des Hochschulabschlussmerkmals. Daher ist es falsch, diesen Koeffizientenwert als kausalen Effekt des wahren generativen Modells zu interpretieren.

Die gewonnenen Lehren

Machine Learning-Modelle sind nicht für die Schätzung kausaler Effekte konzipiert. Während wir dies mit einem linearen Modell gezeigt haben, kann OVB (Omitted-Variable Bias) jede Art von Modell beeinflussen. Wann immer ein Koeffizient oder eine Veränderung in den Vorhersagen, die durch eine Veränderung eines der Merkmale verursacht wird, interpretiert wird, ist es wichtig, potenziell unbemerkte Variablen im Sinn zu behalten, die mit sowohl dem betrachteten Merkmal als auch der Zielvariablen korreliert sein können. Solche Variablen werden als Confounding Variables (konfundierende Variablen) bezeichnet. Um immer noch kausale Effekte in Gegenwart von Konfundierung zu schätzen, führen Forscher normalerweise Experimente durch, in denen die Behandlungsvariable (z.B. Hochschulabschluss) randomisiert wird. Wenn ein Experiment zu kostspielig oder unethisch ist, können Forscher manchmal andere kausale Inferenztechniken wie Instrumental Variables (IV) - Schätzungen verwenden.

Zusammenfassung

Dieses Lab zeigt, dass Machine Learning-Modelle nicht für die Schätzung kausaler Effekte konzipiert sind. Omitted-Variable Biases (Auslassfehler-Bias) hindern uns daran, den wahren kausalen Effekt eines Merkmals auf die Zielvariable zu identifizieren. Wann immer ein Koeffizient oder eine Veränderung in den Vorhersagen interpretiert wird, ist es wichtig, potenziell unbemerkte Variablen im Sinn zu behalten, die mit sowohl dem betrachteten Merkmal als auch der Zielvariable korreliert sein können.

Plot Causal Interpretation