해당 글은 아래 링크를 참고하여 작성했습니다.
https://theeffectbook.net/ch-StatisticalAdjustment.html?panelset5=python-code6&panelset6=python-code7&panelset7=python-code8&panelset8=python-code9#additional-regression-concerns
Measurement Error (Errors in Variables): 데이터를 잘못 측정한 경우
(1) Imprecision
- 반올림을 해서 정보가 손실된 경우
- 데이터의 실제 값을 다시 추정하기가 어려운 경우 등
(2) Proxy
- Proxy: 실제로 원하는 변수가 없기 때문에 다른 변수 대신 사용되는 변수
- 원하는 변수가 proxy 변수를 제대로 나타내지 못하는 경우에 Measurement Error가 발생함
- e.g.) 랩탑 사용이 학생들의 수학 능력을 증대하는지 확인하고 싶을 때, '수학 능력' 대신 '수학 시험 점수'를 프록시 변수로 사용할 수 있음. 같은 수학 능력을 가진 학생들이 서로 다른 수학 시험 점수를 보일 때 measurement error가 있다고 할 수 있음
- Measurement Error의 컨셉: model 안의 variable은 실제 잠재값 (X*)에 error term이 포함된 형태임
- X: 변수
- X*: latent variable, 잠재적인, 관측되지 않는 변수
Measurement Error가 있을 때 나타날 수 있는 문제점
- Measurement Error가 있을 때 추정치가 완전히 빗나갈 수 있기에 문제가 생김
(1) classical measurement error
: error term이 실제 값과 관련이 없는 경우
1) X에서 나타나는 경우 *
- hat(b1)이 0에 가까워지는 경향이 생기기 때문에 shrink towards zero, attenutation이라고도 함
- Y = b0 + b1X에서 X에 classical measurement error가 있을 때, hat(b1)이 0에 가까워질 수 있음 -> X가 Y에 영향을 미치는 정도(b1)가 0이라고 잘못 판단하는 오류
2) Y에서 나타나는 경우
- R^2이 줄어듦 (R^2 = SSR / SST에서 SSR이 줄어들기 때문)
- 하지만, coefficient에는 영향을 미치지 않아서 모델에 큰 영향을 미치지는 않고, noise는 회귀 모형의 error term에 흡수됨
(2) non-classical measurement error
: 오류가 실제 값과 관련이 있는 경우
1) categorical variable에서 나타나는 경우
- e.g.) X*가 binary variable일 때 -> X도 binary variable임
- X = X* + error term
- X* = 1: error term = 0 or -1
- X* = 0: error term = 0 or 1
- => X*와 error term이 서로 관련이 생김
(2) continuous variable에서 나타나는 경우
- e.g.) 세금 데이터로 소득을 측정하는 경우
- 세금을 덜 내기 위해 소득을 잘못 표시하는 사람들이 있는데, 이들은 대부분 현금 기반 사업임. 현금 기반 사업을 하는 사람들은 소득이 낮은 경향이 있음
- -> 고소득 기업보다 저소득 기업에서 더 많은 non-classical measurement error가 나타남
- -> error가 실제 값과 관련이 있음
- e.g.) 운동하는 시간을 변수로 넣어야 하는 경우
- 운동을 많이 하는 사람들보다 적게 하는 사람들에서 수치를 제대로 표기하지 않아, 운동을 적게하는 사람들에게서 더 많은 non-classical measurement error가 나타남
- non-classical measurement error는 (classical measurement error와 달리) hat(b)가 0 이외에도 예상할 수 없는 다른 값으로 튈 수 있기에 더 문제가 됨
- non-classical measurement error는 (classical measurement error와 달리) X에서 나타날 때 뿐아니라 Y에서 나타날 때에도 문제가 됨
'계량경제학 > 인과추론의 데이터과학' 카테고리의 다른 글
Causal Inference의 개요 (0) | 2023.11.09 |
---|---|
인과추론을 위한 회귀분석 - Penalized Regression (1) | 2022.10.03 |
인과추론을 위한 회귀분석 - Collinearity (1) | 2022.10.03 |
인과추론을 위한 회귀분석 - Sample Weights (0) | 2022.10.03 |
Gauss-Markov Assumptions (0) | 2022.09.30 |