NASAN's Study/통계방법론과 프로그램
표준오차(S.E; Standard Errors), 로버트의 표준오차(Roberts Standard Errors), 클러스터 표준오차(Cluster Standard Errors)
많은 회귀식을 이용한 연구에서 유의확률 계산을 위해 t-통계량을 이용한다. 그런데 이 t-통계량은 관련 글에서 설명했듯, 표준오차(SE; Standard Errors)를 통해 계산된다. 이러한 표준오차는 주로 세가지가 많이 사용되는데, 먼저 일반적인 표준오차는 다음과 같이 계산된다.
TSS와 RSS에 대해서는 결정계수에 대한 글에서 설명하였다. 간단하게 설명하자면, TSS는 관측치에서 관측치의 평균을 뺀 값의 제곱합이고, RSS는 오차항(관측치에서 추정치를 뺌)의 제곱합이다. n-k-1은 자유도때문에 넣어주는 것인데, n-k로 표기하기도 한다. 이렇게 구해진 1σ^2은 오차항의 분산을 의미한다. 이렇게 구해진 값을 이용해 t-통계량을 구하게 되는데, 위 식과 t-통계량의 공식을 비교하면 아래와 같은 중요한 사실을 눈치챌 수 있다.
- 오차항은 선정된 설명변수로 종속변수를 설명하고 남은 차이이므로, 관측이 불가능한 변수가 많을 수록 오차항이 커진다.
- 오차항이 커지면 RSS(오차항의 제곱합)이 커진다.
- RSS가 커지면 오차항의 분산이 커진다.
- 오차항의 분산이 커지면 추정치 b의 분산이 커진다.
- 추정치 b의 분산이 커지면 표준오차가 커진다.
- 표준오차가 커지면 t-통계량이 작아진다.
- t-통계량이 작아지면 귀무가설(H0: 모수가 0이다)을 기각하기 어려워진다.
즉, SE는 추정치의 유의성과 관련된 중요한 요소임을 알 수 있다. 그런데 여기서 n-k-1에 집중할 필요가 있다. 여기서 n은 관측치의 수인데, 가령 설문조사를 500부 했다면 n은 500이 된다. 즉, 여기서도 중심극한의 정리가 성립함을 확인할 수 있다. n이 커질수록, 오차항의 분산이 작아지고, 연쇄적으로 추정치 b의 분산이 작아져, 결과적으로 표준오차가 작아지게 되어 t-통계량이 커지기 때문이다.
문제는 k에 있다. 앞서 k는 추정할 계수의 수라고 하였다. 추정한 계수가 증가하면 설명하고 남은 부분(오차항)이 적어질 것이다. 따라서 k가 커질때 오차항의 분산이 적어지는 것은 합리적으로 보인다. 그러나 문제는 y와 관련이 없는 변수를 넣더라도 k는 커진다. 추정한 계수가 종속변수와 상관이 없는데 오차항의 분산이 적어진다는 것은 비합리적이다. 조금 더 자세히 말하면, 종속변수와 관련이 없는 변수가 포함되어 k가 커지면 오차항의 분산이 작아지고, 결과적으로 t-통계량이 커져 유의할 확률이 높아지는데, 이것이 과연 합리적일까? 그렇지 않을 것이다. 따라서 최근의 많은 연구에서는 일반적인 표준오차 대신 로버트의 표준오차(Roberts SE)나 클러스터 표준오차(Cluster SE)를 사용한다. 2
추가적으로 일반적인 표준오차에서 오차항의 분산은 등분산을 가정한다. 등분산을 가정했기때문에 위와 같은 공식이 나오는 것이지, 이분산성을 가진다면 정확한 값이 아니게 된다. 이 부분을 해결하는 것이 바로 Roberts SE이다. Roberts SE는 각 i마다 다른 오차항의 분산을 가진다고 가정한다. 즉, 이분산성을 기본적으로 가정한다. 다만, i=1의 오차항의 분산은 1에게만 영향을 받고, 다른 2나 3으로부터는 영향을 받지 않는다. 이를 행렬형태로 나타내면 아래와 같다.
이러한 가정속에서 추정치의 분산을 구하게 되면 아래와 같다.
Roberts SE는 이 값에 루트를 씌운 값이다. 즉, Roberts SE는 더이상 관측치가 커진다고 유의해지지 않는다. 다시 말하면 일반적인 표준오차보다 더 엄격한 기준을 가지므로, Roberts SE가 유의하면 일반적인 표준오차도 유의하다고 할 수 있지만, 그 역은 성립하지 않는다.
Cluster SE는 이름처럼 그룹 내에서 공유되는 표준오차를 말한다. 그룹 간에는 표준오차에 영향을 미치지 못한다고 가정한다. 간단하게 정리하면 아래와 같이 나타낼 수 있다.
복잡하게 보이지만 그룹 내에는 1번 사람의 오차항에 2번과 3번 사람이 영향을 주지만, 그룹 간에 있어서는 Roberts SE처럼 영향이 없다는 이야기다. 고등학교를 예로 들면, 어떤 사람의 성적에 같은 반의 공부 잘 하는 학생이 영향을 미칠 수 있을 것이다. 그러나 옆반의 공부 잘 하는 학생은 영향을 미치지 못했을 것이다. 이러한 영향은 관측할 수 없는 영역이기 때문에 오차항에 포함되게 된다. 이런 경우에 Cluster SE를 사용할 수 있다.
그렇다면 무조건 Roberts SE 혹은 Cluster SE를 쓰는 것이 좋은가? 그렇다. 물론 꼭 논문을 투고해야한다면 일반적인 SE를 써서 유의하게 보여야할 경우도 있을 수 있겠지만, 지적받을 수 있다. 따라서 일반적으로는 Roberts SE가 추천된다. Cluster SE를 사용하면 역시 공격은 안 받을 수 있지만, 경험적 조건에 의하면 그룹의 수가 50개 이상이여야 사용가능하다고 한다. 예를 들어 그룹을 도(또는 주)로 묶는다고 치자. 미국은 51개 주가 있으므로 Cluster SE를 사용할 수 있다. 그러나 한국의 도 급은 아무리 많이 쳐줘야 30을 넘지 않는다. 따라서 Cluster SE를 사용할 수 없다.
'NASAN's Study > 통계방법론과 프로그램' 카테고리의 다른 글
도구변수(IV; Instrument Variable) (1) | 2023.12.12 |
---|---|
변수의 내생성(Endogeneity) (1) | 2023.11.27 |
t통계량(t-statistic)과 t검정(t-test) (0) | 2023.11.27 |
통제집단합성법(SCM; Synthetic Control Method) in STATA (0) | 2023.11.16 |
도구변수(IV; Instrument Variable) 분석하기 in STATA (0) | 2023.11.11 |