아래 링크를 참조하여 작성한 글입니다.
https://www.youtube.com/watch?v=cMMeYBjwztg
# Regression vs Matching
Regression | Matching | |
공통점 | observed variable으로 control group과 treatment group의 특성을 유사하게 만들어 두 그룹을 비교 가능하게 만든다. (Selection on Observables) - regression에서는 observed variable로 두 그룹의 selection bias를 없앤다는 concept - matching에서는 propensity score로 이를 통제할 수 있다는 concept |
|
장점 | - 다양한 covariate이나 fixed effect으로 within group comparison을 가능하게 함 - flexible 하여 다양한 setting, 방법으로 확정이 가능하다 - 모든 observation을 사용할 수 있음 |
- functional form에 대한 가정 없이 control variable의 특성이 유사한 sample끼리 match하여 두 그룹 간 평균적인 특성을 유사하게 만든다. - 두 그룹을 더 직관적으로, flexible하게 비교 가능함 |
단점 | - functional form (linear function) 가정이 필요 - observed variable으로 모든 selection bias를 설명하지 못할 수 있음 (unobserved variable이 있을 수 있음, conditional independence assumption) |
- matching 방법에 따라 (PSM의 경우 propensity score를 어떤 함수로 만드느냐) 인과추론 결과가 sensitive 하게 달라질 수 있음, 추정치의 variation이 커짐 - observation을 버려서 통계적 신뢰도가 작아질 수 있음 |
# Propensity Score Matching (PSM)
- 모든 treated unit과 untreated unit은 observed covariate을 input으로, treatment를 받을 지 여부를 output으로 하여 logit or probit model을 적합했을 때, treatment를 받을 확률을 구할 수 있음
- 해당 확률을 propensity score이라고 하고, propensity score가 비슷한 unit을 resampling 하여 Treatment group, Control group을 새롭게 만든다.
- covariate에 대해 통제했으므로, 적어도 통제변수에 대해서는 두 집단이 비교 가능하다고 할 수 있다.
# Coarsened Exact Matching (CEM)
- PSM 방법의 단점
- covariate으로 treatment를 받을 확률을 propensity score라는 1-dimension으로 축약을 시킴 -> 축약시킨 값이기 때문에, matching 된 값들이 모든 covariate에 대해 비교 가능하다고 할 수 있는 지 모호함
- 실제로 covariate과 treatment를 받을 확률이 logit or probit function을 따르는 지 알 수 없음
- CEM이란?
- 함수에 대한 가정 없이 PSM보다도 더 직관적으로 두 그룹을 비교할 수 있는 방법
- exact matching: covariate가 완전히 동일한 값끼리만 matching하는 방법 - 비교할 수 있는 sample 수가 극도로 적어짐
- coarsened exact matching: covariate을 몇개의 bin으로 (비교적 느슨하게) 만든 뒤, 같은 bin에 있는 sample끼리 matching 한다.
- CEM의 단점
- sample 수가 PSM보다도 더 줄어듦 -> variation이 커지고 통계 추정 결과가 크게 달라질 수 있음
- sample 수가 많은 경우에 선호되는 방법
- PSM + CEM
- PSM으로 matching을 한 뒤에 실제로 covariate 간 밸런스가 잘 맞는 지 확인하는 과정을 거칠 수 있음
# Extensions of Matching
Rolling Entry Matching
- treatment를 받은 시점이 다르다고 할 때 사용하는 matcing 방법
- t1 시점, t2 시점에 treatment를 받은 그룹이 있다고 하자.
- t1 시점에 treatment를 받은 그룹: t1 이전의 covariate으로 propensity score를 구한 뒤 해당 treatment group과 전체 control group을 matching
- t2 시점에 treatment를 받은 그룹: t2 이전의 covariate으로 propensity score를 구한 뒤 해당 treatment group과 전체 control group을 matching
Look-ahead Matching
- Adoptors와 Control group을 비교한다면, observed variable 만으로 두 그룹을 control 할 수 없을 것이다. 아무리 matching으로 두 그룹을 동질적으로 맞춘다고 해도, premium plan을 구독한 그룹과 free plan만 사용하는 그룹 간 본질적인 차이가 있을 것이다.
- 따라서, Early adopters와 late adopters를 각각 Treatment group, Control group으로 한 뒤, Late Adopters가 treatment effect가 있기 전의 시점에서의 데이터를 사용할 수 있다. 이렇게 한다면 Premium plan 구독 여부에 따른 본질적인 차이를 제거할 수 있다.
# Regression과 Matching의 한계점
- observable covariate에 의해 설명되는 selection bias만 통제할 수 있음 (selection on observable)
- Causal inference의 마지막 수단으로 고려되어야 하는 방법론으로, 다른 방법론을 보조하기 위한 수단으로 활용됨
# Sensitivity Analysis to Omitted Variables
'계량경제학 > 인과추론의 데이터과학' 카테고리의 다른 글
Matching 예시 (0) | 2023.11.21 |
---|---|
인과추론의 다양한 접근법 (0) | 2023.11.21 |
Causal Inference를 위한 Fixed Effects (0) | 2023.11.13 |
인과추론 영역에서의 Data Structure (1) | 2023.11.13 |
Causal Inference에서의 Regression (2) | 2023.11.09 |