유튜브 "인과추론을 위한 데이터과학"을 보고 작성했습니다.
# Data Structure
# Time Series Data
- treatment를 받은 하나의 unit에 대한 데이터만 있음
- Control group이 없음: 시간에 따라 effect가 달라지는 것이 treatment에 의한 변화인지, time trend에 의한 변화인지 판단하기 어려움. seasonal effect 등의 가정을 해야 하는 데 가정을 검증하기도 어려움.
- -> Time Series Data는 인과추론이 어려움
# Cross Sectional Data
- Treatment 이후 시점에 대해서 여러개의 unit 데이터로 구성됨
- counterfactual로 Control group을 선정하기 위해서는 time-variang confounder, time-invariant confounder 모두에 대해 비교 가능해야 함
# Panel Data
1) Treatment 이후 시점만 관찰한 경우
- 여러 시점에서 반복적으로 관찰했기 때문에 각 unit에 대해 time-invariant fixed effect를 고려할 수 있음
- dummy(unitA), dummy(unitB), dummy(unitC) -> 각각 unit A,B,C인지 나타내는 dummy variable
- fixed effect으로 각 unit에서 time invariant confounder를 통제하는 통제변수로서의 역할을 함
- 인과추론을 위해서는 time-varying confounder에 의해 비교 가능한 Control group을 만들어야 함
- 하지만, treatment를 받은 이후의 데이터만 있으므로 treatment group이 treatment 받기 전후의 time-varying 한 변화는 데이터에서 나타나지 않음 (unitA가 treatment를 받지 않았다가 t 시점 이후로 treatment를 받음)
- unit fixed effect 간 차이로 between unit difference를 설명할 수 있음 -> unit A,B,C 내에서의 변화를 분석할 수 있어 within-group comparision을 할 수 있음 -> matching과 비슷한 역할을 함
2) Treatment 전,후의 데이터를 모두 가지고 있을 때
- fixed effect으로 각 unit에서 time invariant confounder를 통제하는 통제변수로서의 역할을 함
- time trend가 있다면 (control group과 treatment group의 차이의 추세가 비슷하다면) treatment 이전의 control group, treatment group의 차이로 treatment 이후의 control group, treatment group의 차이를 계산할 수 있음. 즉, time varying confounder를 통제할 수 있음
- unit fixed effect - dummy(unitA), dummy(unitB), ... (가로줄)
- 그룹 별 공통된 효과가 흡수됨
- 그룹 별 time 간 차이가 남음
- within-group comparison 가능
- time fixed effect - dummy(timeT), dummy(timeT-1), ... (세로줄)
- 시간대 별 공통된 효과가 흡수됨
- 시간대 별 group 간 차이만 남음
- within-time comparison 가능
- unit fixed effect + time fixed effect => two-way fixed effect (TWFE) model
# Clustered Standard Error
- 일반적인 regression 모델에서는 iid, 즉 모든 error가 서로 독립이라는 가정을 만족해야 함
- 반면 panel data는 데이터 구조 상 iid가 성립되기 어려움 (동일한 unit에 대해서 반복적으로 관찰하기에 error에 correlation이 있을 수 있음)
- unit 별로 clustered standard error를 구해서 동일 unit 내 error term의 correlation을 허용하는 방법이 있음
- 단, unit의 수가 적으면 clustered standard error가 작동하지 않을 수 있고 (cluster의 수 <= 50) 이 땐 cluster-bootstrapped standard error를 주로 사용함
'계량경제학 > 인과추론의 데이터과학' 카테고리의 다른 글
Matching (0) | 2023.11.19 |
---|---|
Causal Inference를 위한 Fixed Effects (0) | 2023.11.13 |
Causal Inference에서의 Regression (2) | 2023.11.09 |
RCT 실험의 한계점 (0) | 2023.11.09 |
Randomized Controlled Trials (RCT, ABTest) (0) | 2023.11.09 |