회귀분석을 할 때, 소득이나 면적처럼 범위가 너무 넓은 경우에는 이상치가 많을 수 있다. 혹은 추세를 없애기 위해서도 log를 사용하는데, 로그를 언제 이용하는지에 대한 자세한 설명은 <Log>페이지에 정리하겠다. 아무튼 여러 이유로 종속변수와 독립변수에 log를 붙이게 되면 해석에 유의해야 한다.
level-level은 log를 붙이기 않은 것을 의미한다. y도 x도 단위 그대로 해석하면 된다. 예를 들어 시간 당 성적변화(1점 단위)의 β 추정치가 1이라면 1시간 공부하면 성적이 1점 오른다고 해석된다. 정리하면,
- y=a+bx+e
- x가 1단위 증가할 때 b만큼 y가 증가함
log-log는 종속변수와 독립변수 모두에 로그를 취한 것이다. 로그는 변화율을 의미한다. 따라서 %로 해석해야 한다. (이 부분은 log에 대한 글에서 더 상세히 설명하겠다.
- lny=a+blnx+e
- x가 1% 증가할 때 b%만큼 y가 증가함
level-log는 독립변수에만 log를 취한 형태다. 이 경우에는 해석에 유의해야 한다. 이렇게 해석되는 이유는 log-level과 함께 설명하겠다.
- y=a+blnx+e
- x가 1% 증가하면 y는 b/100단위 증가함
log-level은 종속변수에만 log를 취한 형태다.
- lny=a+bx+e
- x가 1단위 증가하면 y는 b*100% 증가함
level-log와 log-level에서 해석이 위와 같이 되는 이유는 로그가 변화율을 의미하기 때문이다(1). 또한 b는 회귀식의 기울기로, 기울기=x변화량 대비 y변화량이므로 b=y변화량/x변화량 이다(2). 이 두가지에서 다음을 도출할 수 있다.
- (1)에서 lnx=x의 변화율, 즉 lnx= ∂x/x. (∂x는 x의 변화량)
- (2)에서 b=∂y/∂lnx = ∂y/(∂x/x)
그런데 우리는 해석을 "x가 1% 증가할 때"라고 하였다. 1%라는 것은 0.01에 100을 곱한 것과 같다. lnx란 변화율을 의미하며 lnx의 값이 0.01이면 우리는 1%라고 부른다. 즉, 우리는 자연스럽게 100을 곱하여 말하고 있는 것이다. 여기서부터 다음과 같은 결론을 내릴 수 있다.
- b= ∂y/(∂x/x) 이므로, lnx를 %로 해석하는 것은 분모에 100을 곱하는 것
- 즉, ∂y/[(∂x/x)*100] = b/100
log-level의 경우에도 같은 논리로 b*100으로 해석해야하는 이유를 찾을 수 있다.
'NASAN's Study > 통계방법론과 프로그램' 카테고리의 다른 글
통제집단합성법(SCM; Synthetic Control Method) in STATA (0) | 2023.11.16 |
---|---|
도구변수(IV; Instrument Variable) 분석하기 in STATA (0) | 2023.11.11 |
탐색적요인분석(EFA; Exploratory Factor Analysis) (1) | 2023.11.04 |
요인분석(Factor Analysis) (1) | 2023.10.28 |
결정계수(R²; R-Squared) (1) | 2023.10.20 |