NASAN's Study/통계방법론과 프로그램 2023. 12. 12.
도구변수(IV; Instrument Variable)
도구변수법은 현재 계량경제학의 꽃으로, 관측 불가능한 변수까지 통제할 수 있는 아주 좋은 방법이다. 영어로는 Instrument Variable Method, 줄어야 IV방법이라고 칭한다. 관측 불가능한 변수까지 통제하는 것이 좋은 이유는, 관측불가능한 변수로 인한 생략변수편향(bias)문제를 해결할 수 있기 때문이다. 그러나 IV를 사용하기 위해서는 약간의 조건도 있다. 바로, 창의력이 필요하다는 것이다. 왜 그런지는 아래에서 다른 설명과 함께 서술하겠다. 도구변수에 대해 간단하게 정의하자면, 관심변수와 관련있지만 오차항과는 관련이 없는 변수다. 조금 풀어서 설명하면, 관심변수에 대한 실제 데이터를 사용하는 것이 아니라, 관심변수를 설명할 수 있으면서 다른 변수들과는 상관이 없는 변수를 통해 추정한 관..
NASAN's Study/통계방법론과 프로그램 2023. 12. 11.
표준오차(S.E; Standard Errors), 로버트의 표준오차(Roberts Standard Errors), 클러스터 표준오차(Cluster Standard Errors)
많은 회귀식을 이용한 연구에서 유의확률 계산을 위해 t-통계량을 이용한다. 그런데 이 t-통계량은 관련 글에서 설명했듯, 표준오차(SE; Standard Errors)를 통해 계산된다. 이러한 표준오차는 주로 세가지가 많이 사용되는데, 먼저 일반적인 표준오차는 다음과 같이 계산된다. TSS와 RSS에 대해서는 결정계수에 대한 글에서 설명하였다. 간단하게 설명하자면, TSS는 관측치에서 관측치의 평균을 뺀 값의 제곱합이고, RSS는 오차항(관측치에서 추정치를 뺌)의 제곱합이다. n-k-1은 자유도때문에 넣어주는 것인데, n-k로 표기하기도 한다. 이렇게 구해진 σ^2은 오차항의 분산을 의미한다. 이렇게 구해진 값을 이용해 t-통계량을 구하게 되는데, 위 식과 t-통계량의 공식을 비교하면 아래와 같은 중요한..
NASAN's Study/통계방법론과 프로그램 2023. 11. 27.
변수의 내생성(Endogeneity)
흔히 통계학이나 계량경제학 등 회귀분석을 주로 다루는 학문에서 중요하게 보는 것 중 하나가 변수의 내생성(Endogeneity)이다. 그런데 내생성이라는 말이 확 와 닿지는 않는 것도 사실이다. 내생성은 쉽게 말하면 말 그대로 '내부에서 생성된다'는 의미이다. 반대의 개념인 외생성은 말 그대로 외부에서 생성되는 것으로, 완전히 랜덤하게 결정된다는 의미이다. 다음과 같이 예를 들 수 있다. 소득과 성적의 관계를 밝히려고 할 때, 성적은 외생적일까? 성적은 딱 봐도 외생적일 수 없다. 왜냐하면 성적을 결정하는 요인은 대표적으로 IQ, 노력, 흥미 등이 있기 때문이다. 그런데 이렇게 따지면 모든 변수가 내생적인 것 아닌가? 맞다. 거의 모든 변수는 내생성을 가진다. 로또와 같이 순전히 운에 의하는 변수를 빼고..
NASAN's Study/통계방법론과 프로그램 2023. 11. 27.
t통계량(t-statistic)과 t검정(t-test)
본 글에서는 유의확률과 관련된 개념인 t-통계량, t값, t-test에 대해 설명하고자 한다. 설명에 앞서, OLS 회귀분석을 위한 중요한 전제 중 하나인 '오차항의 등분산성 가정'을 짚고 넘어가야 한다. 오차항의 분산이 동일하다고 가정하는 이유는 오차항이 정규분포를 가져야 OLS를 통해 추정한 추정치 b가 정규분포를 따르기 때문이다. 추정치 b의 분포는 다음과 같이 표현할 수 있다. 신뢰구간을 확인하고 유의확률을 알기 위해서는 표준정규분포로 바꿀 필요가 있다. 왜냐하면 모수 b를 알 수 없기 때문이다. 또한 뒤에 다시 언급하겠지만 유의확률을 위한 귀무가설은 b=0이다. 그런데 위 식은 추정치 b만을 다루고 있으므로 계산 자체가 불가능하다. 따라서 위 식을 표준정규분포로 바꾸면 아래와 같이 나타낼 수 있..
NASAN's Study/통계방법론과 프로그램 2023. 11. 16.
통제집단합성법(SCM; Synthetic Control Method) in STATA
통제집단합성법(직역하면 합성통제법?)에 대한 자세한 설명은 다음을 참고하면 된다. 이러한 SCM을 STATA에서 돌리기 위해서는 다음의 순서를 따른다. 1. synth 패키지 설치 ssc install synth, all //cannot write 오류가 뜰 경우에는 경로지정 혹은 변경이 필요 cd C:\Program Files\Stata17 //그래도 안되면 바탕화면에 폴더를 만들고 경로 지정 2. 연구에 사용할 데이터 불러오기 따로 설명하지 않겠다. 3. SCM을 위한 명령어 입력 //Basic code synth 종속변수 예측변수1 예측변수2 예측변수3, trunit(관심대상) trperiod(기준년도) xperiod(시작년도(델타년도)종료년도) resulsperiod(시작년도(델타년도)종료년도) ..
NASAN's Study/통계방법론과 프로그램 2023. 11. 11.
도구변수(IV; Instrument Variable) 분석하기 in STATA
IV에 대한 설명은 다음 링크를 참고하세요 (추가예정) reg x1 z1 z2 x2 x3 x4 #first stage predict x1_hat (option xb assumed; fitted values) #x1_hat이라는 변수 생성 reg y x1_hat x2 x3 x4 #2SLS #another way ivreg y x2 x3 x4 (x1=z1 z2), first #print first stage and 2sls both STATA에서 2SLS를 위한 코드는 위와 같습니다. another way가 더 간편하고 정보를 잘 줍니다. 따로 코드를 입력할 필요없이 F 통계량이 함께 표시됩니다.
NASAN's Study/통계방법론과 프로그램 2023. 11. 4.
탐색적요인분석(EFA; Exploratory Factor Analysis)
탐색적요인분석이란 설문조사 등으로 관찰된 변수를 몇 개의 변수로 축약하는 기법이다. 관찰된 변수를 그대로 변수로 이용하지 않고 축약하는 이유는 다음과 같다. 1. 분석에 모든 변수를 이용할 수 없다 두번째 이유와도 연결되는 문제이긴 하지만 간단한 논리로 설명하겠다. 사회과학계열에서 분석이라는 것은 이공계열의 실험과도 같다. 이런 실험에서 유의미한 결과를 얻기 위해서는 적절한 통제를 해야 한다. 예를 들어 햇빛이 작물의 성장에 미치는 영향을 알기 위해서는 햇빛 외의 흙, 온도, 습도와 같은 변수들을 동일하게 맞춰준다. 마찬가지로 사회과학계열에서 분석 시 이용하는 회귀분석의 계수는 다른 변수들이 일정하다는 가정 하에서 도출된다. 문제는 현실에서 실제로 고정될 수가 없다. 즉, 변수가 많을 수록 우리는 더 많..
NASAN's Study/통계방법론과 프로그램 2023. 10. 28.
요인분석(Factor Analysis)
요인분석이란 여러개의 변수를 몇 개의 변수로 요약해주는 기법이다. 요인분석은 탐색적요인분석(EFA; Exploratory Factor Analysis)과 확인적요인분석(CFA; Confirmatory Factor Analysis)으로 나눌 수 있는데, 각각에 대한 자세한 소개는 각각의 게시글에서 따로 할 것이다. 여기서는 강력한 이론적 배경이 있으면 확인적요인분석, 없으면 탐색적요인분석을 이용한다고만 언급하고 넘어가겠다. 과거에는 주성분분석(PCA; Principal Component Analysis)을 탐색적요인분석의 기법 중 하나로 사용했으나 현재에는 거의 이용하지 않는다. 그 이유는 주성분분석은 애초에 요인분석과 회귀식부터 다르기 때문이다. 일반적인 요인분석의 회귀 식은 다음과 같다 y는 우리가 설..
NASAN's Study/통계방법론과 프로그램 2023. 10. 23.
로그: 회귀분석 시 log를 붙이면 어떻게 해석할까?
회귀분석을 할 때, 소득이나 면적처럼 범위가 너무 넓은 경우에는 이상치가 많을 수 있다. 혹은 추세를 없애기 위해서도 log를 사용하는데, 로그를 언제 이용하는지에 대한 자세한 설명은 페이지에 정리하겠다. 아무튼 여러 이유로 종속변수와 독립변수에 log를 붙이게 되면 해석에 유의해야 한다. level-level은 log를 붙이기 않은 것을 의미한다. y도 x도 단위 그대로 해석하면 된다. 예를 들어 시간 당 성적변화(1점 단위)의 β 추정치가 1이라면 1시간 공부하면 성적이 1점 오른다고 해석된다. 정리하면, y=a+bx+e x가 1단위 증가할 때 b만큼 y가 증가함 log-log는 종속변수와 독립변수 모두에 로그를 취한 것이다. 로그는 변화율을 의미한다. 따라서 %로 해석해야 한다. (이 부분은 log..
NASAN's Study/통계방법론과 프로그램 2023. 10. 20.
결정계수(R²; R-Squared)
결정계수(R²; R-Squared)란 회귀식의 설명이 얼마나 적합한지를 판단하는 기준이다. R²의 계산을 위한 개념에는 Total Sum of Squares(TSS), Explained Sum of Squares(ESS), Residual Sum of Squares(RSS)가 있으며 각각에 대한 설명은 다음과 같다. TSS = 관측치에서 평균을 뺀 값의 제곱합 ESS = 추정치에서 평균을 뺀 값의 제곱합 RSS = 관측치에서 추정치를 뺀 값의 제곱합, 즉 에러항의 제곱합 R²값은 다음과 같이 구할 수 있다. 이러한 R²값은 0~1 사이의 값을 가진다. R² = ESS/TSS = 1-RSS/TSS 문제는 R²값은 '강수량에 따른 키 성장'처럼 영 뚱딴지같은 것을 넣어도 점점 높아진다. 따라서 대게 을 이용..