흔히 통계학이나 계량경제학 등 회귀분석을 주로 다루는 학문에서 중요하게 보는 것 중 하나가 변수의 내생성(Endogeneity)이다. 그런데 내생성이라는 말이 확 와 닿지는 않는 것도 사실이다.
내생성은 쉽게 말하면 말 그대로 '내부에서 생성된다'는 의미이다. 반대의 개념인 외생성은 말 그대로 외부에서 생성되는 것으로, 완전히 랜덤하게 결정된다는 의미이다. 다음과 같이 예를 들 수 있다.
소득과 성적의 관계를 밝히려고 할 때, 성적은 외생적일까?
성적은 딱 봐도 외생적일 수 없다. 왜냐하면 성적을 결정하는 요인은 대표적으로 IQ, 노력, 흥미 등이 있기 때문이다. 그런데 이렇게 따지면 모든 변수가 내생적인 것 아닌가? 맞다. 거의 모든 변수는 내생성을 가진다. 로또와 같이 순전히 운에 의하는 변수를 빼고는 전부 다 내생변수다. 그래서 내생성을 말 그대로 이해하는 것보다 "외생성이 아닌 것들"로 이해하는 것이 빠를 수도 있다.
그렇다면 왜 내생성을 없애려고 하는가?
정확하게 말하면 내생성을 없애는 것이 아니라, 내생성의 "문제"를 해결하는 것이다. 위의 예시에서 성적이 IQ, 노력, 흥미 등에 의해 결정된다는 것은 성적과 세 요인이 상관관계가 있다는 것이다. 한편, IQ와 흥미는 직업선택에 영향을 미치고 노력은 꾸준한 노동에 영향을 미칠 수 있다. 그런데 소득은 직업과 노동시간 등에 영향을 받는다. 따라서 이러한 IQ, 노력, 흥미를 독립변수로 포함시키지 않는다면 이 변수는 오차항이 대신 설명하게 된다. 문제는 이에 따라 생략변수편향이 발생하여 성적이 소득에 미치는 정확한 영향력을 추정할 수 없게 된다는 것이다. (생략변수편향에서 자세히 설명하겠다.) 따라서 내생성으로 인해 발생하는 문제를 해결해야 할 필요가 있다.
그럼 컴퓨터도 발전했겠다, 관련있는 변수를 다 때려박으면 되겠네요?
안 된다. 그 이유는 다 때려박을 수 없기 때문이다. 너무 많아서가 아니라 관측이 불가능한 변수에 문제가 있다. 위 예시에서 IQ는 측정이 가능하다. 노력도 뭐 일단 공부 시간으로 측정할 수 있다고 하자. 그런데 흥미는 어떻게 관측할 수 있을까? 관측이 불가능하다. 따라서 이런 변수들은 설문조사를 통해서 구해야하는데, 문제는 심리학자가 아닌 이상 정확한 설문을 하기 힘들다는 것이다. 사실 심리학자도 어려워하는 문제이며, 기준을 어떻게 두느냐에 따라 값이 달라져버리기때문에 정확한 값인지에 대한 문제도 제기될 수 있다. 따라서 이러한 관측 불가능한 변수를 어떻게 통제할 것인지가 계량경제학의 최대 난제이자 주제라고 볼 수 있다.
'NASAN's Study > 통계방법론과 프로그램' 카테고리의 다른 글
도구변수(IV; Instrument Variable) (1) | 2023.12.12 |
---|---|
표준오차(S.E; Standard Errors), 로버트의 표준오차(Roberts Standard Errors), 클러스터 표준오차(Cluster Standard Errors) (1) | 2023.12.11 |
t통계량(t-statistic)과 t검정(t-test) (0) | 2023.11.27 |
통제집단합성법(SCM; Synthetic Control Method) in STATA (0) | 2023.11.16 |
도구변수(IV; Instrument Variable) 분석하기 in STATA (0) | 2023.11.11 |