본문 바로가기

전체 글

(149)
Causal Inference를 위한 Fixed Effects 유튜브 "인과추론의 데이터과학"을 듣고 작성했습니다. 데이터 예시: 푸시메시지가 구매에 미치는 영향 unit fixed effect: time invariant covariates를 모두 통제하여 time invariant covariates를 모두 설명할 수 있음. 즉, time invariants covariate과 perfect collinearity를 가짐 ex) Gender = 1 * D1 + 0 * D2 + 1 * D3 (20+30)/2 = 25 customer3에서는 Y1이 없기 때문에 treatment effect를 계산할 수 없음 -> customer fixed effect는 within group comparison을 하는 역할을 수행 Q3. customer fixed effect 있을..
인과추론 영역에서의 Data Structure 유튜브 "인과추론을 위한 데이터과학"을 보고 작성했습니다. # Data Structure # Time Series Data treatment를 받은 하나의 unit에 대한 데이터만 있음 Control group이 없음: 시간에 따라 effect가 달라지는 것이 treatment에 의한 변화인지, time trend에 의한 변화인지 판단하기 어려움. seasonal effect 등의 가정을 해야 하는 데 가정을 검증하기도 어려움. -> Time Series Data는 인과추론이 어려움 # Cross Sectional Data Treatment 이후 시점에 대해서 여러개의 unit 데이터로 구성됨 counterfactual로 Control group을 선정하기 위해서는 time-variang confound..
Causal Inference에서의 Regression 유튜브 "인과추론의 데이터과학"을 참고하여 작성한 글입니다. # Regression의 목적 예측 관점에서의 regression: 종속변수를 온전히 설명하는 true model 만들기 인과추론 관점에서의 regression: selection bias를 야기하는 confounding factor를 통제하여 true causal effect 구하기 # Regression에서의 Endogeneity error term에 X가 설명하지 못하는 Treatment group과 Control group간 본질적인 차이가 있는 경우에는... X와 error term 간 corrrelatin이 존재함. 이를 endogeneity (selection bias)라고 할 수 있고, regression에서는 아래와 같은 식으로..
RCT 실험의 한계점 유튜브 "인과추론의 데이터과학"을 참고로 하여 작성한 글입니다. # RCT의 결과를 다른 상황에 대입하기 어려울 수 있다. 사실 이건 RCT의 문제라기 보다는 모든 실험 설계에 대해 해당하는 이야기이다. 이전 게시물에서 다룬 재택근무와 업무 효율성 관련 실험 ATE1에서는 Treatment group을 재택근무를 희망하여 당첨된 사람, Control group을 재택근무를 희망했으나 낙첨된 사람으로 나누었음 ATE2에서는 Treatment group을 재택근무를 희망한 사람, Control group을 재택근무에 희망하지 않은 사람으로 나누었음. 두 경우에 Treatment group, Control group의 설정을 다르게 했으므로 ATE1과 ATE2는 다르게 나올 것이고, ATE1에서 확인한 재택근..
Randomized Controlled Trials (RCT, ABTest) 유튜브 "인과추론의 데이터과학"을 참고하여 작성한 글입니다. # 실험 설계 시 Random Assign을 하는 방법 재택근무가 업무 효율에 미치는 영향을 분석하고 싶다고 하자. 재택근무를 하고싶은지 여부를 자원을 받아서 Treatment group, Control group으로 나눴다고 해보자. -> 개인이 선택하여(self-selection) 두 그룹이 나뉘어 진 것으로, 두 그룹 간 본질적인 차이가 존재함. 따라서 self-selected treatment group의 효과(Actual outcome for treated if treated)과 Self-selected control group의 효과(Actual outcome for untreated if not treated)의 차이를 구하면 Ca..
Causal Inference의 개요 "인과추론의 데이터과학" 유튜브를 참고하여 작성했습니다. # Causal effect #Counter factual #Selection bias #endogeneity Counterfacual: Treatment group이 treatment를 받지 않았다고 가정한 그룹 Control group: 현실에서 Treatment group과 비교할 수 있는 그룹 Counterfactual과 control group은 본질적인 차이가 날 수밖에 없고, 이 차이를 endogeneity라고 한다. Treatment group과 Control group은 각각 treatment를 받을 것인지 여부를 직접 선택했기 때문에 endogeneity를 self selection이라고도 함. => Causal effect = ..
인과추론을 위한 회귀분석 - Penalized Regression 해당 글은 아래 링크를 토대로 작성했습니다. https://theeffectbook.net/ch-StatisticalAdjustment.html?panelset5=python-code6&panelset6=python-code7&panelset7=python-code8&panelset8=python-code9#additional-regression-concerns Penalized Regression Regression에서 변수가 너무 많은 경우, variable selection을 하기 위한 방법 변수가 너무 많으면 collinearity가 생길 수 있고, 모델의 해석도 어렵고 과적합의 위험도 있으므로, 변수를 제거하는 과정이 필요함 Regression Penalized Regression 잔차 제곱합을..
인과추론을 위한 회귀분석 - Measurement Error 해당 글은 아래 링크를 참고하여 작성했습니다. https://theeffectbook.net/ch-StatisticalAdjustment.html?panelset5=python-code6&panelset6=python-code7&panelset7=python-code8&panelset8=python-code9#additional-regression-concerns Measurement Error (Errors in Variables): 데이터를 잘못 측정한 경우 (1) Imprecision 반올림을 해서 정보가 손실된 경우 데이터의 실제 값을 다시 추정하기가 어려운 경우 등 (2) Proxy Proxy: 실제로 원하는 변수가 없기 때문에 다른 변수 대신 사용되는 변수 원하는 변수가 proxy 변수를 제대..