Explorando a Interpretação Causal em Machine Learning

Introdução

Este laboratório demonstra que os modelos de Aprendizagem de Máquina são excelentes para medir associações estatísticas, mas não conseguem inferir efeitos causais sem fazer suposições fortes sobre os dados. Vamos simular uma situação em que tentamos responder a uma das questões mais importantes da economia da educação: qual é o efeito causal de obter um diploma universitário nos salários por hora? Embora a resposta a esta pergunta seja crucial para os formuladores de políticas, os Viéses de Variáveis Omitidas impedem-nos de identificar esse efeito causal.

Dicas da Máquina Virtual

Após o arranque da máquina virtual, clique no canto superior esquerdo para mudar para a aba Notebook para aceder ao Jupyter Notebook para a prática.

Por vezes, pode ser necessário esperar alguns segundos para o Jupyter Notebook terminar o carregamento. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se tiver problemas durante a aprendizagem, não hesite em contactar o Labby. Forneça feedback após a sessão e resolveremos prontamente o problema para si.

Gerar o conjunto de dados

Geramos um conjunto de dados simulado de salários por hora, experiência profissional, capacidade, salários por hora dos pais e diplomas universitários. A experiência profissional em anos e uma medida de capacidade são extraídas de distribuições normais. O salário por hora de um dos pais é extraído de uma distribuição Beta. Criamos um indicador de diploma universitário que é positivamente afetado pela capacidade e pelo salário por hora dos pais. Finalmente, modelamos os salários por hora como uma função linear de todas as variáveis anteriores e um componente aleatório.

Treinar modelos preditivos com variáveis totalmente observadas

Treinamos um modelo preditivo, um modelo de Regressão Linear, assumindo que todas as variáveis utilizadas pelo verdadeiro modelo gerador estão disponíveis. Prevemos os salários por hora utilizando características como experiência, salário por hora dos pais, diploma universitário e capacidade. Também representamos os coeficientes do modelo para mostrar que recuperamos exatamente os valores do verdadeiro modelo gerador.

Treinar modelos preditivos com observações parciais

Treinamos novamente um modelo preditivo, mas desta vez omitimos a característica de capacidade, que não é observada ou apenas estimada a partir de proxies que inadvertidamente medem também a educação (por exemplo, através de testes de QI). Prevemos novamente os salários por hora utilizando características como experiência, salário por hora dos pais e diploma universitário. Em seguida, verificamos se os coeficientes do modelo são diferentes do verdadeiro modelo gerador. Para compensar a variável omitida, o modelo infla o coeficiente da característica de diploma universitário. Portanto, interpretar este valor de coeficiente como um efeito causal do verdadeiro modelo gerador é incorreto.

Lições aprendidas

Os modelos de machine learning não foram projetados para a estimação de efeitos causais. Embora tenhamos demonstrado isso com um modelo linear, o OVB (Overfitting Bias) pode afetar qualquer tipo de modelo. Sempre que se interpreta um coeficiente ou uma mudança nas previsões causada por uma mudança em uma das características, é importante ter em mente variáveis potencialmente não observadas que podem estar correlacionadas tanto com a característica em questão quanto com a variável-alvo. Essas variáveis são chamadas de Variáveis de Confusão. Para estimar o efeito causal na presença de confusão, os pesquisadores geralmente conduzem experimentos nos quais a variável de tratamento (por exemplo, diploma universitário) é aleatorizada. Quando um experimento é proibitivamente caro ou antiético, os pesquisadores às vezes podem usar outras técnicas de inferência causal, como estimativas de Variáveis Instrumentais (IV).

Resumo

Este laboratório demonstra que os modelos de Machine Learning não foram projetados para a estimação de efeitos causais. Os vieses de variáveis omitidas impedem-nos de identificar o verdadeiro efeito causal de uma característica na variável-alvo. Sempre que se interpreta um coeficiente ou uma mudança nas previsões, é importante ter em mente variáveis potencialmente não observadas que podem estar correlacionadas tanto com a característica em questão quanto com a variável-alvo.

Gráfico de Interpretação Causal