Explorer l'interprétation causale dans l'apprentissage automatique

Introduction

Ce laboratoire démontre que les modèles d'apprentissage automatique sont excellents pour mesurer les associations statistiques, mais sont incapables d'inférer des effets causaux sans faire de fortes hypothèses sur les données. Nous allons simuler une situation dans laquelle nous essayons de répondre à l'une des questions les plus importantes de l'économie de l'éducation : quel est l'effet causal d'obtenir un diplôme d'université sur les salaires horaires? Bien que la réponse à cette question soit cruciale pour les décideurs politiques, les biais d'omission de variables nous empêchent d'identifier cet effet causal.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder au carnet Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que le carnet Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limites du carnet Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Générer l'ensemble de données

Nous générons un ensemble de données simulé de salaires horaires, d'expérience professionnelle, de capacité, de salaires horaires des parents et de diplômes universitaires. L'expérience professionnelle en années et une mesure de capacité sont tirées de distributions normales. Le salaire horaire d'un des parents est tiré d'une distribution bêta. Nous créons un indicateur de diplôme universitaire qui est positivement influencé par la capacité et le salaire horaire des parents. Enfin, nous modélisons les salaires horaires comme une fonction linéaire de toutes les variables précédentes et d'un composant aléatoire.

Entraîner des modèles prédictifs avec des variables entièrement observées

Nous entraînons un modèle prédictif, un modèle de régression linéaire, en supposant que toutes les variables utilisées par le vrai modèle générateur sont disponibles. Nous prédisons les salaires horaires en utilisant des caractéristiques telles que l'expérience, le salaire horaire des parents, le diplôme universitaire et la capacité. Nous traçons également les coefficients du modèle pour montrer que nous retrouvons exactement les valeurs du vrai modèle générateur.

Entraîner des modèles prédictifs avec des observations partielles

Nous entraînons à nouveau un modèle prédictif, mais cette fois-ci, nous omettons la caractéristique de capacité, qui n'est pas observée ou n'est estimée que à partir de proxys qui mesurent également inadvertemment l'éducation (par exemple, par des tests d'IQ). Nous prédisons à nouveau les salaires horaires en utilisant des caractéristiques telles que l'expérience, le salaire horaire des parents et le diplôme universitaire. Nous vérifions ensuite si les coefficients du modèle sont différents du vrai modèle générateur. Pour compenser la variable omise, le modèle gonfle le coefficient de la caractéristique du diplôme universitaire. Par conséquent, interpréter cette valeur de coefficient comme un effet causal du vrai modèle générateur est incorrect.

Leçons apprises

Les modèles d'apprentissage automatique ne sont pas conçus pour l'estimation d'effets causaux. Bien que nous ayons montré cela avec un modèle linéaire, le biais d'omission de variables (OVB) peut affecter tout type de modèle. Chaque fois qu'il s'agit d'interpréter un coefficient ou un changement dans les prédictions provoqué par un changement dans l'une des caractéristiques, il est important de garder à l'esprit les variables potentiellement non observées qui pourraient être corrélées à la fois avec la caractéristique en question et la variable cible. De telles variables sont appelées variables confondantes. Afin d'estimer toujours l'effet causal en présence de confondance, les chercheurs conduisent généralement des expériences dans lesquelles la variable de traitement (par exemple, le diplôme universitaire) est aléatorisée. Lorsqu'une expérimentation est excessivement coûteuse ou contraire à l'éthique, les chercheurs peuvent parfois utiliser d'autres techniques d'inférence causale telles que les estimations de variables instrumentales (IV).

Sommaire

Ce laboratoire démontre que les modèles d'apprentissage automatique ne sont pas conçus pour l'estimation d'effets causaux. Les biais dus à l'omission de variables nous empêchent d'identifier l'effet causal réel d'une caractéristique sur la variable cible. Chaque fois qu'il s'agit d'interpréter un coefficient ou un changement dans les prédictions, il est important de garder à l'esprit les variables potentiellement non observées qui pourraient être corrélées à la fois avec la caractéristique en question et la variable cible.

Tracer l'interprétation causale