아래 동영상을 참고하여 작성했습니다.
https://www.youtube.com/watch?v=0HUf8aH1B9Y
https://www.youtube.com/watch?v=0HUf8aH1B9Y
https://www.youtube.com/watch?v=fL_SBIg-bnY
도구변수(Instrumental Variable)
- error term과 y가 exogenous → X와 y 사이 인과관계를 찾을 수 없음 ⇒ treatment variable을 error term과 상관관계를 가지는 endogenous 한 part + 상관관계가 없는 exogeneous part으로 나눔 → exogenous 한 part만 떼어내서 인과추론
Two-stage Least Squares
-
- (1) exogenous 한 part인 Z로 X를 예측 (X: 원인변수, Z: 도구변수
- $X = a_0 + a_1*Z + \epsilon$ ⇒ $\hat{X} = a_0 + a_1 * Z$
- (2) Y에서도 exogenous 한 part만 predict
- $Y = b_0 + b_1*X + \epsilon$ ⇒ $Y = b_0 + b_1 * \hat{X} + \epsilon’$
Control function
- endogenous 한 part도 떼어내서 control variable을 만들어서 conditioning 하는 방법
- 2LS에서 residual을 conditional probability로 추정
- $X = \gammaZ + \nu$ , $Y = \betaX + u$에서 $\nu$가 주어져있을 때 Y를 예측한다고 하자
- $E(Y|Z, \nu) = E(\betaX+u|Z, \nu) = \betaE(X|Z, \nu)+E(u|Z,\nu)$
- $= \beta*X$ ($Z, \nu$가 주어졌얼 때 X를 추정 가능함) $+ E(u|\nu)$ ( control function, 도구변수 Z는 exogenous 한 part이기 때문에 error term u와 correlation이 없음)
- $= \betaX + \rho\nu$ ($\rho = corr(u, \nu)$)
- Heckman-selection model이 control function의 특별한 예시
더보기
Heckman-Selection Model
이해되지 않은 부분이라, 추후에 다시 작성
https://www.youtube.com/watch?v=IfWqpC5rous
- 적용하는 이론
- probit model
- Truncated normal distribution
- 정규분포에서 특정 구간을 잘랐을 때의 평균을 계산할 수 있음 $E[X|X>\alpha]$ → 이 때 수식은 Inverse Mills ratio 형태로 나옴. (pdf / cdf 형태)
- 적용 사례1: Sample Selection
- sample에 select 될 확률이 실제 추정 결과를 편향시킬 수 있음.
- ex) education ~ age: 임금 수준이 너무 낮은 사람은 데이터에 아예 포함되지 않을 수도. 즉, sample selection의 기준이 outcome과 연관되어 있음 → 실제 education ~ age 관계를 과소추정 할 수 있음
- ⇒ control function approach: sample에 select 될 확률을 probit model로 1st stage modeling → residual을 conditioning → endogeneity를 보정
- ?? select 할 데이터가 없는 문제를 modeling 해서 어떻게 해결하지?
- 적용 사례2: treatment group에 select 될 확률을 probit model로 계산, 교란요인을 residual으로 통제 → ?뭔말
도구변수의 조건과 잘못된 예시
도구변수의 조건
- (1) IV는 error term과 상관관계가 없어야 한다.
- (2) IV는 원인변수를 충분히 설명할 수 있어야 한다.
도구변수를 잘못 사용한 예시
- (1) IV가 error term과 상관관계가 없어야 한다.
- IV의 정보가 Predicted Independent Variable에 흘러들어가서 error term과 endogenous하게 됨 → 인과관계 추론 불가 → 인과그래프를 도입하면 설명이 쉬움
- 설명되지 않는 모든 요인이 error term에 담기게 되고, error term과 IV에 상관관계가 생김
(2) IV가 설명변수를 충분히 설명할 수 있어야 한다.
- weak instrument이 있으면 (1)이 위배된 효과가 증폭됨
(2-1) 무작정 많이 예측한다고 좋은 건 아님
- IV가 거의 X와 동일해짐.. ⇒ IV는 너무 약하지도, 강하지도 않아야 함.
LATE(Local Average Treatment Effect)
- ATET: 기존의 원인변수의 인과 효과
- LATE: 도구변수로 인해 예측된 부분만으로 추정한 인과효과 (기존의 원인변수 중 exogenous 한 part만 가져온 것이라서 ATET≠LATE)
- Compliers: 도구변수가 있을때만 treatment가 변화하는 집단 → 도구변수에 의한 효과 추정 가능 ⇒ 도구변수에 의한 효과는 Compliers 그룹에 대해서만 추정 가능
- LATE의 monotonicity assumption: no defiers exist (도구변수의 효과를 감쇄시키는 defier가 있다면 추정이 불가능)
- 한계점: compliers에 따라서 서로 다른 추정치를 내기도 함.
IV 예시
ex1) 1990년대 사회 제도외 경제성장의 관계
- 통제변수1: 사유재산제도
- 도구변수1: 15~16세기 식민지에서의 사망률, 인구밀도
- 식민지에서 사망률이 높고 인구밀도가 높을 수록 → 지배자들이 문명을 그나라에서 발전시키지 않고 자원을 약탈했을 것임 (ex. 멕시코)
- 식민지의 인구밀도가 낮고 사망률이 낮으면 → 지배자들이 자원 착취 대신 그곳에 정착해서 살면서 사유재산제도가 발달했을 것 (ex. 미국)
- 통제변수2: 계약제도
- 도구변수: 지배국가
- 종속변수: GDP
ex2-1) 인터넷 보급률이 혐오범죄에 미치는 영향
- 통제변수1: 인터넷 보급률
- 도구변수1: 지형적인 기울기
- 기울기가 가파를 수록 인터넷 보급률이 높지만(도구변수 → 통제변수 O), 지형적 기울기가 혐오범죄에 영향을 주지 않음 (도구변수 → 통제변수 X)
ex2-2) 모바일 앱 다운로드가 구매에 미치는 영향
- 통제변수1: 모바일 앱 다운로드
- 도구변수2: 사용자가 사는 나라의 기지국 숫자
- 기지국 숫자가 많은 지역에 사는 사용자가 모바일 앱 다운로드에 영향을 미치지만 (도구변수 → 통제변수 O) 기지국 숫자가 구매에 영향을 주지 않음 (도구변수 → 통제변수 X)
ex3) ERP 시스템의 도입이 매니저의 권한에 미치는 영향
- 통제변수: ERP 도입
- 도구변수: 기업의 본사와의 거리
- 본사와 가까운 기업이 ERP를 도입할 가능성이 높음
ex3-2) 개신교가 경제성장에 미치는 영향
- 통제변수: 개신교 신자의 수
- 도구변수: 종교개혁이 일어난 도시와의 근접성
- 해당 도시와 근접할 수록 개신교 신자 수가 많음
'계량경제학 > 인과추론의 데이터과학' 카테고리의 다른 글
인과추론을 위한 회귀분석 - Polynomials (1) | 2022.09.21 |
---|---|
인과추론을 위한 회귀분석 - Discrete Variable (2) | 2022.09.21 |
인과추론을 위한 회귀분석 - 회귀분석의 개요 (0) | 2022.09.21 |
Causal Diagram (1) | 2022.07.30 |
Session 2: Overview of Research Design for Casual Inference (0) | 2022.03.28 |