본문 바로가기

계량경제학/인과추론의 데이터과학

Causal Inference에서의 Regression

유튜브 "인과추론의 데이터과학"을 참고하여 작성한 글입니다. 


 

# Regression의 목적 

예측 관점에서의 regression: 종속변수를 온전히 설명하는 true model 만들기 

인과추론 관점에서의 regression: selection bias를 야기하는 confounding factor를 통제하여 true causal effect 구하기 

# Regression에서의 Endogeneity

error term에 X가 설명하지 못하는 Treatment group과 Control group간 본질적인 차이가 있는 경우에는... X와 error term 간 corrrelatin이 존재함. 이를 endogeneity (selection bias)라고 할 수 있고, regression에서는 아래와 같은 식으로 표현됨 

e1 = e0이라면 (X의 값에 따라 error term이 달라지지 않으므로) endogeneity가 없고, e1 != e0이라면 endogeneity가 있음 

endogeneity를 고려하지 않고 regression을 통해 beta를 추정한다면, beta에 e1 - e0이 더해진 구조로 잘못 추정될 수 있음 

 

# Control Variable

Regression에서 Control variable을 통해 endogeneity를 제거할 수 있다! 

만약 selection bias가 control variable C로 모두 설명된다고 한다면, (사실 이런 variable을 발견하는 것 자체가 어렵겠지?) Y를 X, C, error term의 선형조합으로 만들면 더이상 endogeneity가 없게 됨 

이 때의 ATE는 Control variable로 Conditioning 한 상태에서의 ATE이므로 CATE(Conditional ATE)이라고 한다. 

 

# Causal Inference에서 Regression을 사용할 때 주의해야 하는 점

* Regression의 우항의 모든 독립변수들이 동일한 역할을 하지 않는다. 

종속변수 = 원인변수 + 통제변수 형태라고 생각하자. 

통계적으로 해석할 때는 원인변수나 통제변수나 다를 게 없지만, 인과추론 관점에서 해석할 때는 두개를 다르게 봐야 함. 

원인변수를 인과적인 효과로 해석하되, 통제변수는 인과적인 효과로 해석하면 안됨