본문 바로가기

계량경제학/인과추론의 데이터과학

Difference-in-Difference

Case-control Design: Treatment group, Control group을 냅다 비교 -> 두 그룹이 동질적이지 않아, 두 그룹의 차이가 다른 요인에 의한 것인지, Treatment에 의한 것인지 알 수 없음 

Event-study Design: Treatment가 있기 전후의 효과 차이를 비교 -> Post-treatment effect와 Pre-treatment effect의 차이가 Treatment에 의한 것인지, 시간의 차이에 따른 다른 요인의 변화에 의한 것인지 알 수 없음 

=> DID는 Case-control Design + Event-study Design 이다! 

 

(1) DID를 Case-control design으로 해석하는 경우

Post treatment 시점의 (Treatment group과 Control group의 효과 차이) - Pre treatment 시점의 (Treatment group과 Control group의 효과 차이)

 

 

 

 

(2) DID를 event-study design으로 해석하는 경우

(Treatment group의 Post treatment 시점과 Pre treatment 시점의 효과 차이) - (Control group의 Post treatment 시점과 Pre treatment 시점의 효과 차이)

 

 

(3) DID를 Potential Outcome Framework으로 해석하는 경우 

Causal effect = Tpost - Tcounterfactual

Tcounterfactual: treatment group에서 만약 treatment group이 없었을 때의 effect 

Tcounterfactual = Tpre + (Tcounterfactual - Tpre) ---- 단순히 Tcounterfactual에서 Tpre를 더하고 뺀 것

(Tcounterfactual - Tpre)

= (Treatment group에서 Post-Treatment 시점에 Treatment effect가 없다고 가정했을 때의 효과) 

- (Treatment group에서 Pre-Treatment 시점에 Treatment effect가 있기 전의 효과) 

= Treatment가 없었더라도 시간에 따라서 변했을 요인

-> (Cpost - Cpre)으로 변환 가능 

∴ DID Estimator = Tpost - [Tpre + (Cpost - Cpre)]

 

 

=> β3를 causal effect으로 추정함 

 

 

Parallel trend Assumption

DID에서 Treatment가 없었더라도 시간에 따라서 변했을 효과 차이를 Control group의 시간 추세에 따른 효과 차이로 대신함 

(Tcounterfactual - Tpre) = (Cpost - Cpre)

-> Treatment group과 Control group의 특성이 조금 달라도 괜찮음. Treatment가 없을 때 시간에 따라서 변하는 추세인 time trend만 비교 가능하면 된다! 

 

Parallel pre-trend에 대한 검증이 Parallel trend assumption에 대한 검증이 되지는 못한다

Parallel pre-trend에 대한 검증은 관찰 불가능한 counterfactual에 대한 가정이기 때문에 완벽한 검증은 어려움 

parallel pre-trend에 대한 검증은 가능하나, parallel post trend에 대한 검증은 불가함 

treatment group이 treatment 이후에도 pre-treatment 시점의 control group과 parallel할 지는 알 수 없음

-> post treatment 시점에 다른 confounder가 없다는 가정이 있어야 함 

 

 

parallel trend assumption에 대한 잘못된 예시 

실험 내용: 코로나 이후에 대학 수업의 온라인 수업 그룹과 오프라인 수업 그룹 간 성적 차이가 나는가? 

코로나 이전에는 두 그룹에 parallel pre-trend가 있는 것으로 보임. 그러나, 코로나 이후에는 오프라인 수업 그룹의 성적이 더 높았음 

=> pre trend가 같아도 post trend는 달랐을 수 있음! online 그룹에 코로나가 더 큰 영향을 줬을 수 있기 때문 

 


아래 영상을 참고하여 작성한 글입니다. 

https://www.youtube.com/watch?v=SwPB3SocwLY