머신 러닝에서 인과 해석 탐색

소개

이 실습은 기계 학습 모델이 통계적 연관성을 측정하는 데는 뛰어나지만, 데이터에 대한 강력한 가정 없이는 인과적 효과를 추론할 수 없음을 보여줍니다. 우리는 경제 교육 분야에서 가장 중요한 질문 중 하나에 답하려는 상황을 시뮬레이션할 것입니다: 대학교 졸업이 시간당 임금에 미치는 인과적 효과는 무엇입니까? 이 질문에 대한 답은 정책 결정자들에게 매우 중요하지만, 생략된 변수 편향으로 인해 그 인과적 효과를 식별할 수 없습니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 연습을 위한 Jupyter Notebook에 접근하십시오.

때때로 Jupyter Notebook 이 완전히 로드되기까지 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사를 자동화할 수 없습니다.

학습 중 문제가 발생하면 Labby 에 문의하십시오. 세션 후 피드백을 제공하면 문제를 신속하게 해결해 드리겠습니다.

데이터셋 생성

시간당 임금, 근무 경력, 능력, 부모의 시간당 임금, 대학교 졸업 여부 등의 가상 데이터셋을 생성합니다. 근무 경력 (년) 과 능력 측정값은 정규 분포에서 추출합니다. 한 부모의 시간당 임금은 베타 분포에서 추출합니다. 능력과 부모의 시간당 임금에 긍정적인 영향을 받는 대학교 졸업 여부 지표를 만듭니다. 마지막으로, 시간당 임금을 이전 변수들의 선형 함수와 무작위 성분의 합으로 모델링합니다.

완전히 관측 가능한 변수를 사용하여 예측 모델 학습

모든 변수가 참 생성 모델에 사용된 변수와 동일하게 제공된다고 가정하고, 예측 모델 (선형 회귀 모델) 을 학습합니다. 경력, 부모의 시간당 임금, 대학교 졸업 여부, 능력과 같은 특징을 사용하여 시간당 임금을 예측합니다. 또한 모델 계수를 플롯하여 참 생성 모델의 값을 정확히 복구했음을 보여줍니다.

부분 관측 변수를 사용한 예측 모델 학습

이번에는 관측되지 않거나 (예를 들어, IQ 테스트와 같이 교육을 우연히 측정하는 대리변수로부터 추정되는) 능력 특징을 제외하고 예측 모델을 다시 학습합니다. 경력, 부모의 시간당 임금, 대학교 졸업 여부와 같은 특징을 사용하여 시간당 임금을 다시 예측합니다. 그런 다음 모델 계수가 참 생성 모델의 계수와 다른지 확인합니다. 생략된 변수를 보완하기 위해 모델은 대학교 졸업 여부 특징의 계수를 부풀립니다. 따라서 이 계수 값을 참 생성 모델의 인과적 효과로 해석하는 것은 잘못된 것입니다.

얻은 교훈

머신 러닝 모델은 인과적 효과 추정을 위해 설계되지 않았습니다. 선형 모델을 통해 이를 보여주었지만, OVB 는 모든 유형의 모델에 영향을 줄 수 있습니다. 특징 중 하나의 변화로 인해 예측이 변화하거나 계수를 해석할 때, 해당 특징과 목표 변수 모두와 상관관계가 있을 수 있는 관측되지 않은 변수를 염두에 두는 것이 중요합니다. 이러한 변수를 혼란 변수 (Confounding Variables) 라고 합니다. 혼란 변수가 존재하는 상황에서도 여전히 인과적 효과를 추정하기 위해 연구자들은 일반적으로 처리 변수 (예: 대학교 졸업 여부) 를 무작위로 할당하는 실험을 수행합니다. 실험이 비용이 많이 들거나 윤리적으로 문제가 될 때, 연구자들은 때때로 도구 변수 (Instrumental Variables, IV) 추정과 같은 다른 인과 추론 기법을 사용할 수 있습니다.

요약

이 실험은 머신 러닝 모델이 인과적 효과 추정을 위해 설계되지 않았음을 보여줍니다. 생략된 변수 편향 (OVB) 으로 인해 특징이 목표 변수에 미치는 진정한 인과적 효과를 식별할 수 없습니다. 계수나 예측 변화를 해석할 때는 해당 특징과 목표 변수 모두와 상관관계가 있을 수 있는 잠재적으로 관측되지 않은 변수를 염두에 두는 것이 중요합니다.

인과 해석 시각화

소개

VM 팁

데이터셋 생성

완전히 관측 가능한 변수를 사용하여 예측 모델 학습

부분 관측 변수를 사용한 예측 모델 학습

얻은 교훈

요약