도구변수란?
설명변수를 통해서만 y에 영향을 미치는 변수 (설명변수가 통제될 때 도구변수의 변화는 y에 영향을 미치지 않는다.)
① 도구변수는 설명변수와 관련됨
② 도구변수는 외생적
도구변수를 사용할 때는?
설명변수가 내생성을 가질때 E(U∣X)=0 일 때 사용할 수 있다.
즉, 내생성이란 설명변수와 오차가 서로 correlated 일때를 말하고,
오차항과 상관된 설명변수들은 2가지 문제가 있다.
표본의 크기가 아무리 커도 OLS 추정값은 참값과 다를 수 있음
설명변수를 내생적으로 만드는 3가지
log(임금) = β0+β1학력+β2경력+u
if omitted variable = 능력
학력, 능력은 서로 관련되어 있고 능력은 오차항의 일부를 구성하게됨
→ 설명변수와 오차항이 서로 관련되는 문제 발생!!
즉, 동일한 경력에서 임금차이가 발생하게 되고 이 것이 학력차이인지 능력차이인지 알 수 없게됨
설명변수와 종속변수가 동시에 결정될 때
설명변수 측정시 오차가 존재할 때
소비=β0+β1항상소득
소비를 추정하려고 할 때 항상소득(현재부터 미래까지 자신에게 올 소득의 평균)은 관측이 힘들기 때문에 실제소득을 사용함
실제소득 = 항상소득 + 일시소득
(여기에서 일시소득은 항상소득과 무관하게 발생함)
소비=β0+β1실제소득 + (−β1일시소득)
일시소득은 관측이 불가능하여 (−β1일시소득)이 오차항이 됨, 이때 일시소득은 실제소득의 구성항목으로 오차항인 일시소득과 설명변수인 실제소득이 관련되어 내생성을 가지게 됨
도구변수 수식으로 정리
1. just identified 일 때
y=β0+β1x1+β2x2+u
x1와 x2 가 외생적이면 β0, β1, β2는 E(u)=0, E(x1u)=0, E(x2u)=0 에 대응하는 관계에 의해 정의가 가능하다.
E(u)=0↔E(y−β0−β1x1−β2x2)=0
E(x1u)=0↔E[x1(y−β0−β1x1−β2x2)]=0
E(x2u)=0↔E[x2(y−β0−β1x1−β2x2)]=0
위의 직교방정식은 3개이고 결정해야할 모수 β0, β1, β2가 3개이므로 특이한 상황이 아닌 이상 세 모수들은 관측변수들의 분포(평균, 분산, 공분산 등)에 의해 식별된다(identified).
아래와 같이 우리는 적률법(method of moments)를 사용하여 OLS 추정량을 구한다.
*적률법: 모집단의 평균이 표본평균과 일치하는 모수를 찾는 방법
E(y)=β0+β1E(x1)+β2E(x2)
E(x1y)=β0E(x1)+β1E(x12)+β2E(x1x2)
E(x2y)=β0E(x2)+β1E(x1x2)+β2E(x22)
즉, E(y)를 n−1∑i=1nyi 로 추정하고 E(x1y)를 n−1∑i=1nxi1yi 로 추정,
E(x2y)를 n−1∑i=1nxi2yi 추정하는 등의 방식을 사용하여 모집단 상수를 구한 후 위의 등식에 대입한다면 β0, β1, β2가 결정된다. (단, 비특이성을 만족시킨다: 3원 1차 연립방정식의 해가 유일할 조건이 있다.)
하지만, x2가 내생적이라면 E(x2,u)=0 이고
E(x2u)=0↔E[x2(y−β0−β1x1−β2x2)]=0 이게 된다.
추가 정보가 없다면 위의 식을 만족시키는 β0, β1, β2 는 무수히 많게 된다.
그렇기에 세 모수들을 식별하려면 별도의 식이 요구되고 이를 위해 추가적인 외생변수인 도구변수 (z2) 를 사용한다.
E(u)=0↔E(y−β0−β1x1−β2x2)=0
E(x1u)=0↔E[x1(y−β0−β1x1−β2x2)]=0
즉, 기존의 2개의 식과 아래의 식이 추가되어 β0, β1, β2 를 식별할 수 있게 된다(just identified).
E(z2u)=0↔E[z2(y−β0−β1x1−β2x2)]=0
2. over-identified 일 때
모수들의 식별에 필요한 만큼보다 더 많은 제약식이 생길 때 over-identified 라고 한다.
예를 들어 내생적 설명변수 1개인데 도구변수가 2개이상 일때 over-identified라고 한다!
도구변수 z2a, z2b가 있으면 아래의 두 개의 식이 추가된다.
E[z2a(y−β0−β1x1−β2x2)]=0 E[z2b(y−β0−β1x1−β2x2)]=0
그렇다면 세 모수 β0, β1, β2 는 기존의 식들과 새롭게 생긴 위의 식들을 만족시켜야한다.
E(u)=0↔E(y−β0−β1x1−β2x2)=0
E(x1u)=0↔E[x1(y−β0−β1x1−β2x2)]=0
3. under identified 일 때
반대로 제약조건의 개수가 모수의 개수보다 작으면 모수들은 under-identified 된다.
단순한 모형 y=β2x2+u 일때 설명변수 x2가 내생적이며 z2가 도구변수라고 가정하자.
이 때 E(z2u)=0 이면 β2와 관계없이 항상 0이 성립하게 되어 β2를 식별할 수 없게 된다.
E(z2u)=0↔E[z2(y−β2x2)]=0
E(z2y)=β2E(z2x2)=0
4. 2단계 최소제곱법 이용하기
2단계 최소제곱법은 회귀분석을 두 번 하는 것이다.
y=β0+β1x1+β2x2+u
여기에서 x1은 외생적이고 x2는 내생적일 때, 추가 도구 변수는 z2a 이다.
1단계) x2^=x0^+x1^z2a
1단계에서는 내생적 설명변수인 x2를 x1과 z2에 대해 회귀하여 맞춘값을 구한다.
그리고 z2의 유의성을 점검하는 것이 좋다.
2단계) y=β0+β1x1+β2x2^+u 2단계에서는 y를 x1과 x2^에 대해 OLS 회귀를 시킨다.