728x90
결정계수(R²; R-Squared)란 회귀식의 설명이 얼마나 적합한지를 판단하는 기준이다. R²의 계산을 위한 개념에는 Total Sum of Squares(TSS), Explained Sum of Squares(ESS), Residual Sum of Squares(RSS)가 있으며 각각에 대한 설명은 다음과 같다.
- TSS = 관측치에서 평균을 뺀 값의 제곱합
- ESS = 추정치에서 평균을 뺀 값의 제곱합
- RSS = 관측치에서 추정치를 뺀 값의 제곱합, 즉 에러항의 제곱합
R²값은 다음과 같이 구할 수 있다. 이러한 R²값은 0~1 사이의 값을 가진다.
- R² = ESS/TSS = 1-RSS/TSS
문제는 R²값은 '강수량에 따른 키 성장'처럼 영 뚱딴지같은 것을 넣어도 점점 높아진다. 따라서 대게 <보정된 R²>을 이용한다. 보정된 R²의 계산은 다음과 같다.
- adj.R² = 1-[(1- R²)(n-1)]/(n-k-1)
이때 n은 표본의 수이고, k는 독립변수의 수이다. 즉, 독립변수를 많이 넣을수록 값을 인위적으로 떨겨주도록 하여 보정한다. 참고로 (n-k-1)은 자료에 따라 (n-k)로 표기하기도 하는데, 이러한 자료들의 k는 -1을 포함한 것이다. n이 아니라 n-k-1 혹은 n-k인 이유는 자유도 때문인데... 솔직히 수학적인 부분들 중에서도 가장 이해가 어려운 부분이다. 추후 이해를 한다면 반드시 따로 정리를 해보겠다.
728x90
'NASAN's Study > 통계방법론과 프로그램' 카테고리의 다른 글
통제집단합성법(SCM; Synthetic Control Method) in STATA (0) | 2023.11.16 |
---|---|
도구변수(IV; Instrument Variable) 분석하기 in STATA (0) | 2023.11.11 |
탐색적요인분석(EFA; Exploratory Factor Analysis) (1) | 2023.11.04 |
요인분석(Factor Analysis) (1) | 2023.10.28 |
로그: 회귀분석 시 log를 붙이면 어떻게 해석할까? (1) | 2023.10.23 |