본문 바로가기

계량경제학/인과추론의 데이터과학

인과추론 영역에서의 Data Structure

유튜브 "인과추론을 위한 데이터과학"을 보고 작성했습니다. 

# Data Structure

 

 

# Time Series Data

  • treatment를 받은 하나의 unit에 대한 데이터만 있음
  • Control group이 없음: 시간에 따라 effect가 달라지는 것이 treatment에 의한 변화인지, time trend에 의한 변화인지 판단하기 어려움. seasonal effect 등의 가정을 해야 하는 데 가정을 검증하기도 어려움. 
  • -> Time Series Data는 인과추론이 어려움 

 

# Cross Sectional Data

  • Treatment 이후 시점에 대해서 여러개의 unit 데이터로 구성됨 
  • counterfactual로 Control group을 선정하기 위해서는 time-variang confounder, time-invariant confounder 모두에 대해 비교 가능해야 함  

 

# Panel Data

1) Treatment 이후 시점만 관찰한 경우 

  • 여러 시점에서 반복적으로 관찰했기 때문에 각 unit에 대해 time-invariant fixed effect를 고려할 수 있음
  • dummy(unitA), dummy(unitB), dummy(unitC) -> 각각 unit A,B,C인지 나타내는 dummy variable
  • fixed effect으로 각 unit에서 time invariant confounder를 통제하는 통제변수로서의 역할을 함
  • 인과추론을 위해서는 time-varying confounder에 의해 비교 가능한 Control group을 만들어야 함   
    • 하지만, treatment를 받은 이후의 데이터만 있으므로 treatment group이 treatment 받기 전후의 time-varying 한 변화는 데이터에서 나타나지 않음 (unitA가 treatment를 받지 않았다가 t 시점 이후로 treatment를 받음) 
    • unit fixed effect 간 차이로 between unit difference를 설명할 수 있음 -> unit A,B,C 내에서의 변화를 분석할 수 있어 within-group comparision을 할 수 있음 -> matching과  비슷한 역할을 함 

 

2) Treatment 전,후의 데이터를 모두 가지고 있을 때

  • fixed effect으로 각 unit에서 time invariant confounder를 통제하는 통제변수로서의 역할을 함
  • time trend가 있다면 (control group과 treatment group의 차이의 추세가 비슷하다면) treatment 이전의 control group, treatment group의 차이로 treatment 이후의 control group, treatment group의 차이를 계산할 수 있음. 즉, time varying confounder를 통제할 수 있음 
  • unit fixed effect - dummy(unitA), dummy(unitB), ... (가로줄) 
    • 그룹 별 공통된 효과가 흡수됨 
    • 그룹 별 time 간 차이가 남음
    • within-group comparison 가능 
  • time fixed effect - dummy(timeT), dummy(timeT-1), ... (세로줄) 
    • 시간대 별 공통된 효과가 흡수됨 
    • 시간대 별 group 간 차이만 남음 
    • within-time comparison 가능 
  • unit fixed effect + time fixed effect => two-way fixed effect (TWFE) model 

 # Clustered Standard Error 

  • 일반적인 regression 모델에서는 iid, 즉 모든 error가 서로 독립이라는 가정을 만족해야 함 
  • 반면 panel data는 데이터 구조 상 iid가 성립되기 어려움 (동일한 unit에 대해서 반복적으로 관찰하기에 error에 correlation이 있을 수 있음)
  • unit 별로 clustered standard error를 구해서 동일 unit 내 error term의 correlation을 허용하는 방법이 있음
  • 단, unit의 수가 적으면 clustered standard error가 작동하지 않을 수 있고 (cluster의 수 <= 50) 이 땐 cluster-bootstrapped standard error를 주로 사용함