본문 바로가기

계량경제학/인과추론의 데이터과학

Matching

아래 링크를 참조하여 작성한 글입니다. 

https://www.youtube.com/watch?v=cMMeYBjwztg

 

 


# Regression vs Matching

  Regression Matching
공통점 observed variable으로 control group과 treatment group의 특성을 유사하게 만들어 두 그룹을 비교 가능하게 만든다. (Selection on Observables)
- regression에서는 observed variable로 두 그룹의 selection bias를 없앤다는 concept 
- matching에서는 propensity score로 이를 통제할 수 있다는 concept 
장점 - 다양한 covariate이나 fixed effect으로 within group comparison을 가능하게 함 
- flexible 하여 다양한 setting, 방법으로 확정이 가능하다 
- 모든 observation을 사용할 수 있음
- functional form에 대한 가정 없이 control variable의 특성이 유사한 sample끼리 match하여 두 그룹 간 평균적인 특성을 유사하게 만든다. 
- 두 그룹을 더 직관적으로, flexible하게 비교 가능함 
단점  - functional form (linear function) 가정이 필요 
- observed variable으로 모든 selection bias를 설명하지 못할 수 있음 (unobserved variable이 있을 수 있음, conditional independence assumption
- matching 방법에 따라 (PSM의 경우 propensity score를 어떤 함수로 만드느냐) 인과추론 결과가 sensitive 하게 달라질 수 있음, 추정치의 variation이 커짐  
- observation을 버려서 통계적 신뢰도가 작아질 수 있음

 

 

# Propensity Score Matching (PSM) 

  • 모든 treated unit과 untreated unit은 observed covariate을 input으로, treatment를 받을 지 여부를 output으로 하여 logit or probit model을 적합했을 때, treatment를 받을 확률을 구할 수 있음 
  • 해당 확률을 propensity score이라고 하고, propensity score가 비슷한 unit을 resampling 하여 Treatment group, Control group을 새롭게 만든다. 
  • covariate에 대해 통제했으므로, 적어도 통제변수에 대해서는 두 집단이 비교 가능하다고 할 수 있다. 

# Coarsened Exact Matching (CEM)

  • PSM 방법의 단점 
    • covariate으로 treatment를 받을 확률을 propensity score라는 1-dimension으로 축약을 시킴 -> 축약시킨 값이기 때문에, matching 된 값들이 모든 covariate에 대해 비교 가능하다고 할 수 있는 지 모호함 
    • 실제로 covariate과 treatment를 받을 확률이 logit or probit function을 따르는 지 알 수 없음 
  • CEM이란? 
    • 함수에 대한 가정 없이 PSM보다도 더 직관적으로 두 그룹을 비교할 수 있는 방법 
    • exact matching: covariate가 완전히 동일한 값끼리만 matching하는 방법 - 비교할 수 있는 sample 수가 극도로 적어짐
    • coarsened exact matching: covariate을 몇개의 bin으로 (비교적 느슨하게) 만든 뒤, 같은 bin에 있는 sample끼리 matching 한다. 
  • CEM의 단점 
    • sample 수가 PSM보다도 더 줄어듦 -> variation이 커지고 통계 추정 결과가 크게 달라질 수 있음 
    • sample 수가 많은 경우에 선호되는 방법 
  • PSM + CEM
    • PSM으로 matching을 한 뒤에 실제로 covariate 간 밸런스가 잘 맞는 지 확인하는 과정을 거칠 수 있음 

# Extensions of Matching

Rolling Entry Matching 

  • treatment를 받은 시점이 다르다고 할 때 사용하는 matcing 방법
  • t1 시점, t2 시점에 treatment를 받은 그룹이 있다고 하자. 
  • t1 시점에 treatment를 받은 그룹: t1 이전의 covariate으로 propensity score를 구한 뒤 해당 treatment group과 전체 control group을 matching 
  • t2 시점에 treatment를 받은 그룹: t2 이전의 covariate으로 propensity score를 구한 뒤 해당 treatment group과 전체 control group을 matching  

Look-ahead Matching

  • Adoptors와 Control group을 비교한다면, observed variable 만으로 두 그룹을 control 할 수 없을 것이다. 아무리 matching으로 두 그룹을 동질적으로 맞춘다고 해도, premium plan을 구독한 그룹과 free plan만 사용하는 그룹 간 본질적인 차이가 있을 것이다. 
  • 따라서, Early adopters와 late adopters를 각각 Treatment group, Control group으로 한 뒤, Late Adopters가 treatment effect가 있기 전의 시점에서의 데이터를 사용할 수 있다. 이렇게 한다면 Premium plan 구독 여부에 따른 본질적인 차이를 제거할 수 있다. 

# Regression과 Matching의 한계점 

  • observable covariate에 의해 설명되는 selection bias만 통제할 수 있음 (selection on observable)
  • Causal inference의 마지막 수단으로 고려되어야 하는 방법론으로, 다른 방법론을 보조하기 위한 수단으로 활용됨 

# Sensitivity Analysis to Omitted Variables