10.2 단일집단의 모평균 $\mu$의 검정($t$ 검정)


단일집단의 모평균 $\mu$에 대한 검정은 모집단의 분포가 평균 $\mu$와 분산 $\sigma^{2}$을 갖는 정규분포 $N(\mu, \sigma^{2})$을 따른다는 것을 전제한다고 할 수 있다. 검정을 하기 위해 추출한 표본을 $(X_{1}, X_{2}, \cdots, X_{n})$이라 할 때 $(X_{1}, X_{2}, \cdots, X_{n})$은 $N(\mu, \sigma^{2})$으로부터의 확률표본이며, 모평균 $\mu$에 대한 검정은 다음과 같다.


1. 가설의 설정

(a) 양측검정 : $H_{0} : \mu = \mu_{0}, \ H_{1} : \mu \neq \mu_{0}$

(b) 단측검정 : $H_{0} : \mu = \mu_{0}, \ H_{1} : \mu > \mu_{0}(또는 \mu < \mu_{0})$


2. 귀무가설 하에서의 검정통계량과 분포

(a) $\sigma^{2}$을 아는 경우

  

    $T(X) = \frac{\overline X - \mu_{0}}{\sigma / \sqrt{n}} \sim N(0,1)$


(b) $\sigma^{2}$을 모르는 경우

(i) $n > 30$ 일 때


$T(X) = \frac{\overline X - \mu_{0}}{S / \sqrt{n}} \sim N(0,1)$


(ii) $n \leq 30$ 일 때


$T(X) = \frac{\overline X - \mu_{0}}{S / \sqrt{n}} \sim t_{n-1}$


3. 유의수준 $\alpha$ 하에서의 기각역(표준정규분포를 이용하는 경우)

(a) 양측검정 : $C_{\alpha} = (-\infty , Z_{\alpha/2}) + (Z_{1-\alpha/2},\infty)$

(b) 단측검정 : $C_{\alpha} = ( Z_{1-\alpha}, \infty)$

10.1 가설검정의 기초 개념

10.1.1 가설의 설정

가설검정에서 가장 기본적인 사항은 검정하고자 하는 모집단의 모수에 대해 가설을 설정하는 것인데 가설(Hypothsis)은 항상 귀무가설(null hypothesis ; $H_{0}$)과 대립가설(alternative hypothesis ; $H_{1}$)의 2가지로 설정하며, 가설검정은 표본관찰 또는 실험을 통해 귀무가설($H_{0}$)와 대립가설($H_{1}$) 중 하나를 선택하는 과정이라 할 수 있다. 두 가설 $H_{0}$와 $H_{1}$은 각각의 경우에 따라 결정되는데, 모수에 대한 가설 중 '항상 간단하고 구체적인 표현'을 귀무가설로 설정한다.


가설검정을 이해하기 위해 교과서에 나온 예제를 살펴보자.


[문제 1] 1997년도 초등학교 1학년 입학생의 평균신장은 142cm였다. 지난 10년 동안 초등학교 입학생의 평균신장이 증가했다고 할 수 있는가?


[문제 2] 서울의 강남지역과 강북지역 고등학생들의 학력고사 성적이 같은가?

[문제 3] 새로운 방법으로 제작된 자동차 타이어의 평균수명이 재래식 방법으로 제작된 타이어보다 더 길다고 할 수 있는가?



[문제 1]의 경우는 "2007년도 초등학교 1학년 입학생의 평균신장이 1997년도 초등학교 입학생의 신장에 비해 증가했다고 할 수 있는가?"의 문제로 이를 수리적으로 표현하면


$\mu$ = 2007년도 초등학교 1학년 입학생의 평균신장


이라 할 때, 


$\mu = 142$ 인가? 또는 $\mu > 142$인가? 를 알고자 하는 것이다.


따라서 $H_{0}$와 $H_{1}$은 각각


$H_{0} : \mu=142$ (2007년도 초등학교 1학년 학생의 평균신장은 142cm이다.)

$H_{1} : \mu>142$ (2007년도 초등학교 1학년 학생의 평균신장은 142cm보다 크다.)


[문제 2]의 경우에는 "강남지역과 강북지역의 고등학교 학생들의 학력고사 평균점수가 같은가? 또는 다른가?" 인데 이 역시


$\mu_{1}$ = 강남지역 학생들 전체의 평균성적

$\mu_{2}$ = 강북지역 학생들 전체의 평균성적


이라 할 때, 각 지역에서 표본으로 추출된 학생들의 시험성적에 의해 $\mu_{1}=\mu_{2}$인가? 또는 $\mu_{1} \neq \mu_{2}$인가를 알고자 하는 것이다.


따라서 $H_{0}$와 $H_{1}$은 각각


$H_{0} : \mu_{1}=\mu_{2}$ (강남지역 학생들과 강북지역 학생들의 평균성적은 같다.)

$H_{1} : \mu_{1} \neq \mu_{2}$ (강남지역 학생들과 강북지역 학생들의 평균성적은 같지 않다.)


[문제 3]의 경우 "새로운 제조방법에 의해 만들어진 타이어의 수명이 더 긴가? 또는 두 제조방법에 차이가 없는가?"를 결정하게 되는데 이 역시


$\mu_{1}$ = 재래식 제조방법에 의해 만들어진 타이어의 평균수명

$\mu_{2}$ = 새로운 제조방법에 의해 만들어진 타이어의 평균수명


이라 할 때,


$\mu_{1} = \mu_{2}$ 인가? 또는 $\mu_{1} < \mu_{2}$인가? 를 결정하는 것이다.


따라서 $H_{0}$와 $H_{1}$은 각각


$H_{0} : \mu_{1}=\mu_{2}$ (재래식 방법과 새로운 방법으로 제조된 타이어의 평균수명은 동일하다.)

$H_{1} : \mu_{1} < \mu_{2}$ (새로운 방법으로 제조된 타이어의 평균수명이 더 길다.)


와 같이 설정한다. 


따라서 가설검정은 '두 가설 중에서 간단한 표현인 귀무가설 $H_{0}$를 채택하든지 또는 기각하는 과정'이라고 할 수 있다.


10.1.2 검정통계량


가설검정은 모수에 대한 가설을 설정한 후 표본관찰을 통해 검정에 필요한 통계량을 구한다. 이와 같이 검정에 이용되는 통계량을 검정통계량(test statistic ; $T(X)$)이라 하는데, 검정통계량의 분포는 항상 가설에서 주어지는 모수를 갖는 분포를 따른다.


위의 [문제 1]에서 $(X_{1}, X_{2}, \cdots, X_{500})$을 표본으로 추출된 초등학교 1학년 학생들의 신장이라 할 때, 표본평균과 표본분산은 각각


$\overline X = \frac{1}{n}\sum_{i=1}^{n}X_{i}$

$S^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline X)^{2} \ \ , \ \ n=500$


과 같으며, 여기에서 가설 $H_{0} : \mu = 142$와 $H_{1} : \mu >142$에 대한 검정통계량은 표본평균 $\overline X$이다. $\overline X$의 분포는 모집단의 분포가 $N(\mu,\sigma^{2})$이라 할 때


$\overline X \sim N(\mu,\frac{\sigma}{n})$


이며, 표준화 공식에 의해


$\frac{\overline X - \mu}{\sigma / \sqrt{n}} \sim N(0,1)$


이다. 가설검정이란 귀무가설이 옳다는 전제 하에 검정통계량의 값을 구한 후 이 값이 나타날 가능성의 크기에 의해 귀마가설의 채택 여부를 결정하는 것이다. 다시 말하면 모평균 $\mu$가 귀무가설에서 주어진 특정 값 $\mu_{0}$라 할 때, 검정통계량


$T(X) = \frac{\overline X - \mu_{0}}{\sigma / \sqrt{n}}$


의 값이 표준정규분포에서 나타날 가능성의 크기에 의해 귀무가설의 채택 여부를 결정한다.


   위의 문제에서 표본평균과 표본분산이 각각 $\overline X = 145, S^{2} = 100$이라 할때, 모분산 $\sigma^{2}$을 알지 못하므로 $\sigma^{2}$을 표본분산 $S^{2}$으로 대치하면 검정통계량은


$T = \frac{\overline X - \mu}{S / \sqrt{n}} \sim t_{n-1}\ \ , \ \ \ \ n=500$


으로 자유도가 $n-1 =499$인 $t$분포를 따른다. $n$이 30보다 크므로 $T$의 값은 근사적으로 표준정규분포 $N(0,1)$을 따른다고 할 수 있다. 따라서 귀무가설에서 $\mu = 142$로 주어져 있으므로 검정통계량 값은


$T = \frac{\overline X - \mu_{0}}{S / \sqrt{n}} = \frac{145-142}{10/\sqrt{500}}=\frac{3}{0.4427}=6.7$이

된다.


6.7은 나타날 가능성이 없는 값이므로 확률변수 $X$에 주어진 전제조건이 잘못되었다는 증거이고 따라서 귀무가설 $H_{0} : \mu = 142$는 받아들일 수 없다.


여기서에서 생각해보자. 우리는 모집단의 평균과 분산을 알 수 없으므로 표본들의 평균과 분산을 구했다. 즉 표본평균과 표본표준편차. 이유는 모집단을 알고싶은데 모집단은 모르니까 표본들을 구해서 모집단 대신 표본들로부터 신장이 142이냐 142보다 크냐를 알고싶은 것이었다. 그래서 표본들의 분포에서 평균신장을 142라고 가정하고 표준화를 했는데...표준화 역시 모집단의 크기를 모르니까 당연히 표준화값인 $Z$를 구할수 없었기 때문에 표본분산을 이용하여 $T$값을 구한것이다. (그리고 이것을 이 단원에선 검정통계량이라 부른다.) 구했더니 값이 6.7이 나왔는데 이값이 굉장히 크다고 한다.(이는 t분포 표를 보면 $n$이 클수록 큰 값은 확률이 낮아짐...) 근데 이 뜻이 당연한 것이 우리가 표준화 해서 $Z$값을 구하고 그 값이 5정도 나왔다고 하면 조금만 생각해보면 표준정규분포상에서 맨 오른쪽에 있는것이다.(수능 0.00000001% 같은것,,,?) 그러니까 평균신장이 142일 가능성이 희박하다고 해석되는것이다.(이렇게 쉬운것이 왜 학부때는 이해가 가지 않았던 것일까....ㅠ)


10.1.3 유의수준과 기각역

 유의수준 $\alpha$란 귀무가설이 옳은데도 불구하고 이를 기각하는 확률의 크기를 말하며(참인데 거짓이라고 판정하는경우), 검정통계량을 구하는 것과는 무관하게 검정을 실시하는 사람의 판단에 따라 결정한다. 기각역이란 가설검정에서 유의수준 $\alpha$가 정해졌을 때 검정통계량의 분포에서 이 유의수준의 크기에 해당하는 영역을 말하는데, 검정통계량의 분포에서 이 영역의 위치는 대립가설의 형태에 따라 다르다. 기각역 $C$와 유의수준 $\alpha$의 관게는 다음과 같이 표현할 수 있다. 즉, 유의수준 $\alpha$는 귀무가설 하에서 검정통계량이 기각역 $C$에 속할 확률이다.

$P_{r}(T(X) \in C | H_{0}) = \alpha$


10.1.4 대립가설과 기각역

   검정통계량의 분포에서 유의수준 $\alpha$에 의해 기각역의 크기가 결정되며, 기각역의 위치는 대립가설 $H_{1}$의 형태에 의해 결정된다. 대립가설의 형태는 가설검정의 목적에 의해 결정되는데, 가설검정은 대립가설의 형태에 따라 양측검정과 단측검정으로 나누어지고, 단측검정은 다시 왼쪽 단측검정과 오른쪽 단측검정으로 분류된다.


양측검정             $H_{1} : \mu_{1} \neq \mu_{2}$

왼쪽 단측검정      $H_{1} : \mu_{1}   <   \mu_{2}$

오른쪽 단측검정   $H_{1} : \mu_{1}   >   \mu_{2}$


위의 [문제 1] ~ [문제 3]에 있어서 [문제 2]는 양측검정이고, [문제 1]과 [문제 3]은 오른쪽 단측검정에 해당된다. 대립가설의 형태에 따라 세 가지 서로 다른 검정을 정의할 수 있는데, 각각의 검정에 있어서 기각역 $C$는 유의수준 $\alpha$가 주어졌을 때 검정통계량 $T(X)$의 분포에서 다음과 같이 결정된다.


양측검정            : $C = \{ T(X) \leq -C_{1} \ 또는 \ T(X) \geq C_{1} \}$ 

왼쪽 단측검정     : $C = \{ T(X) \leq C_{2} \}$

오른쪽 단측검정  : $C = \{ T(X) \geq C_{3} \}$


위에 정의된 기각역에서 $C_{1}, \ C_{2}, \ C_{3}$의 값은 귀무가설 하에서


$P_{r}(T(X) \in C) = \alpha$


에 의해 결정된다.


가설검정과정

단계 1. 검정하고자 하는 목적에 따라 귀무가설 $H_{0}$과 대립가설 $H_{1}$을 설정한다.

단계 2. 검정통계량을 구하고, 그 통계량의 분포를 구한다.

단계 3. 유의수준을 결정하고, 검정통계량의 분포에서 가설의 형태에 따라 유의수준에 해당하는 기각역을 설정한다.

단계 4. 귀무가설이 옳다는 전제 하에 표본관찰에 의한 검정통계량 값을 구한다.

단계 5. 단계 4에서 구한 검정통계량의 값이 기각역에 속하는가를 판단해 기각역에 속하면 귀무가설 $H_{0}$을 기각하고, 기각역에 속하지 않으면 귀무가설 $H_{1}$을 채택한다.



10.1.5. 제 1종 오류$(\alpha)$와 제 2종 오류$(\beta)$


제 1종 오류 : $H_{0}$가 옳은데도 불구하고 $H_{0}$를 기각하는 오류가 나타날 확률

제 2종 오류 : $H_{0}$가 옳지 않은데도 $H_{1}$을 채택하는 오류


가설검정에서는 두 가지 오류가 모두 작은 경우가 바람직하지만, 기각역의 크기를 작게 하면 제 1종 오류는 작아지나 제 2종 오류는 커지며, 기각역을 크게 하면 제 2종 오류는 작아지나 제 1종 오류가 커진다. 따라서 가설검정에서는 제 1종 오류 $\alpha$의 크기를 01, 0.05, 0.01 등으로 고정시킨 뒤 제 2종 오류 $\beta$가 최소가 되도록 기각역을 설정한다.


 정확한 사실$\backslash$가설검정결과

 $H_{0}$가 사실이라고 판정

$H_{0}$가 사실이 아니라고 판정 

$H_{0}$가 사실임 

옳은 결정 

제 1종 오류$(\alpha)$ 

$H_{0}$가 사실이 아님 

제 2종 오류$(\beta)$ 

옳은 결정 



time series analysis 를 공부하기 위해서 기초적인 통계 지식이 필요함을 깨닫고 학부 2학년때 공부하던 기초통계지식을 정리해보려고 한다.

 
책의 내용은 굉장히 길지만 압축하고 간단하게 요약할것이므로......필요하다면 증명도...아무튼 정리를 시작해보도록 하자. 
원래 책은 기초적인 내용부터 너무나도 친절하게 잘 설명해주고 있지만....나는 내가 필요한것만 정리할거다ㅋㅋㅋ 


Let's go! 

---------------------------------------------------------------------------

6.7 평균, 분산과 공분산 

기댓값(expected value : 평균)

확률변수 $X$의 기댓값은 $E(X)$로 표현하며, 각각 다음과 같이 구한다.

1. 이산형 확률변수 

이산형 확률변수 $X$의 가능한 값이 $(x_{1},x_{2},\cdots,x_{n})$이며,

$P(X=x_{i})=P_{i}$    $i=1,2,\cdots,n$

일 때, $X$의 기댓값 $E(X)$는 $E(X)=\sum_{i=1}^{n}x_{i} \cdot P_{i}$이다.

2. 연속형 확률변수

연속형 확률변수 $X$의 확률밀도함수가 $f(x)$라면, $X$의 기댓값 $E(X)$는 $E(X) = \int_{-\infty}^{\infty}x \cdot f(x)dx$이다.

*기댓값의 특성

$X, Y$를 확률변수 $a, b$를 상수라 할 때, 기댓값은 항상 다음 조건을 만족한다.

1. $E(a) = a$

2. $E(aX+b) = aE(X)+b$

3. $E(aX+bY)=aE(X)+bE(Y)$


분산

확률변수 $X$의 분산(variance)은 $E(X)=\mu$라 할 때 $X$와 $\mu$의 편차의 제곱, 즉 $(X-\mu)^{2}$의 기댓값으로 $Var(X)$ 또는 $\sigma_{X}^{2}$로 표현되며 $\sigma_{X}^{2}=E[(X-\mu)^{2}]$으로 구한다.

* $\sigma$ 즉, 분산의 양의 제곱근을 표준편차(standard deviation)라 하며, $\sigma$로 표현한다.


공분산(covariance)

공분산은 두 확률변수 $X, Y$가 있을 때 각각의 확률변수와 그 확률 변수의 평균과의 편차, 즉 $(X-\mu_{X})$와 $(Y-\mu_{Y})$를 구한 후에 그 편차의 곱에 대한 기댓값으로 $E[(x-\mu_{X})(Y-\mu_{Y})]$로 정의 된다. 이와 같은 공분산은 두 확률변수의 결합분포를 알고 있는 경우에 구할 수 있는 모수로, 두 변수 사이의 관계의 밀집도를 측정하는 상관계수(correlation coefficient)를 구하는 과정에서 계산되는 경우가 많다.

 (사실 학부때부터 굉장히 고민이 많았던 개념인다. 왜 $|x_{i}-\mu_{x}|$ 와 $|y_{i}-\mu_{y}|$를 곱한 것의 기댓값이 두 집단의 상관관계를 결정짓는 것인지 아직도 의문인것 같다....)

 두 확률변수 $X$와 $Y$의 공분산(covariance)은 $Cov(X,Y)$ 또는 $\sigma_{XY}$로 표현하며, 다음과 같이 계산한다. 

$\sigma_{XY} = E[(x-\mu_{X})(Y-\mu_{Y})] = E(XY)-\mu_{X}\cdot\mu_{Y}$


* 독립성과 공분산

두 확률변수 $X, Y$가 서로 독립이면 두 확률변수의 공분산은 $0$이다. 즉, $\sigma_{XY} = 0$이다. 그러나 두 확률변수의 공분산이 $0$이라고 해서 두 확률변수가 항상 독립은 아니다.

* 상관계수 

두 확률변수 $X$와 $Y$에 대해 $\sigma_{X}^{2}, \sigma_{Y}^{2}$을 각각의 분사이라 하고, $\sigma_{XY}$를 $X$와 $Y$의 공분산이라 할 때, $X$와 $Y$의 상관계수(correlation coefficient)는 $\rho = \frac{\sigma_{XY}}{\sigma_{X}\cdot\sigma_{Y}}$으로 정의한다.

----------------------------------------------------------------------------------------------------------------------------

7장과 8장의 내용인 이산확률분포의 내용과 연속확률분포의 내용은 생략하도록 하겠다.(넘 쉽고 그냥 정의대로 하면 되니까....)

----------------------------------------------------------------------------------------------------------------------------

9장 확률표본과 추정

9.1 확률표본과 통계량

확률변수 $X$가 특정 확률분포를 따른다고 할 때, 이 확률분포로부터 각각 독립적으로 관측된 $n$개의 표본을 확률표본(random sample)이라 한다. 이 표본을 $(X_{1}, X_{2}, \cdots, X_{n})$이라 할 때, $X_{1}, X_{2}, \cdots, X_{n}$은 확률변수로 상호독립이며, 각각의 $X$와 동일한 분포를 갖는다.


9.2중심극한정리

 평균이 $\mu$이고 분산이 $\sigma^{2}$인 확률분포로부터 크기가 $n$인 확률표본 $(X_{1}, X_{2}, \cdots, X_{n})$을 추출 할 때, 표본평균 $\overline X = \frac{1}{n} \sum X_{i}$는 $n$이 클수록 평균이 $\mu$이고 분산이 $\frac{\sigma^{2}}{n}$인 정규분포와 근사한 분포를 갖는다.  

즉, $\overline X$의 분포는 $\overline X \sim N(\mu,\frac{\sigma^{2}}{n})$ 과 같이 표현한다.

 만약 확률표본 $(X_{1}, X_{2}, \cdots, X_{n})$이 평균 $\mu$와 분산 $\sigma^{2}$을 갖는 정규분포에서 추출되었다면, 표본평균 $\overline X$의 분포는 $n$의 크기에 관계없이 평균 $\mu$와 분산 $\frac{\sigma^{2}}{n}$을 갖는 정규분포를 따른다. 

즉, $\overline X$의 분포는 $\overline X \sim N(\mu,\frac{\sigma^{2}}{n})$이다.


9.3 점추정(point estimation)

 점추정이란 '모수가 특정 값일 것이다.'라고 추정하는것.

   추정량(estimator) : 표본으로부터 구한 통계량 중 모집단의 모수를 추정하는 통계량

   추정치(estimate) : 특정 표본으로부터 구한 추정량의 구체적인 값

   모집단의 평균(모평균) $\mu$의 추정량으로 생각할 수 있는 통계량은 '표본평균', '표본중위수', '최솟값', '최댓값', '최솟값과 최댓값의 평균' 등이 있다.

   **추정량의 2가지 고려사항

      1. 추정량은 확률표본 $(X_{1}, X_{2}, \cdots, X_{n})$에 있는 확률변수 $X_{1}, \cdots, X_{n}$의 함수이므로 추정량 또한 확률변수이고, 추정량도 특정한 확률분포를 가진다.

      2. 특정 모수에 대한 여러가지 추정량 중 가장 바람직한 추정량을 선택해야 한다. 즉, 분산이 작은 추정량.

         * 불편추정량(unbiased estimator) : 분포의 중심이 모수인 추정량

         * 최소분산추정량(minimum variance estimator) : 분산이 가장 작은 추정량

         * 최소분산불편추정량(minimum variance unbiased estimator) : 분포의 중심이 모수이고 분산이 작은 추정량

   모분산의 추정량 

     $(X_{1}, X_{2}, \cdots, X_{n})$을 평균 $\mu$와 분산 $\sigma^{2}$을 갖는 모집단으로부터의 확률표본이라 할 때, 모분산 $\sigma^{2}$의 추정량은 

$S^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline X)^{2}$ 

로 정의한다.

$S^{2}$을 표본분산이라 하며, $S^{2}$의 양의 제곱근 $S=\sqrt{S^{2}}$을 표본 표준편차라 하는데, $S^{2}$은 $\sigma^{2}$의 불편추정량이나 최소분산을 갖는 추정량은 아니며, 최소분산을 갖는 $\sigma^{2}$의 추정량은

$S^{*2}=\frac{1}{n} \sum_{i=1}^{n}(X_{i}- \overline X)^{2}$


   모비율의 추정량 

모비율이란? 모집단의 특성을 나타내는 비율....

자료분석에 있어서 특정 법안에 대한 찬성비율이라든지 또는 호주제도 폐지안에 대해 찬성하는 사람의 비율 등 모집단의 비율 $P$를 추정하는 경우가 있다. (이러한 경우에 이용되는 확률분포가 이항분포이다.)

$n$개의 표본을 추출해 위와 같은 조사를 실시한다고 할 때, 표본은 $(X_{1}, X_{2}, \cdots, X_{n})$와 같이 표현할 수 있으며, $X_{i}, i=1,2,\cdot,n$은 특정 안건에 대한 찬성/반대 중 하나를 나타내는 확률변수 이므로 이항확률변수의 정의에 의해

$X_{i} = \begin{cases} 1 \quad i번째\ 사람이\ 찬성한\ 경우\\ 0 \quad i번째\ 사람이\ 반대인\ 경우 \end{cases}$

와 같이 표현할 수 있다. 통계량 $X$를

$X = \sum_{n=1}^{n}X_{i}$

와 같이 정의하면 $X$는 '표본으로 추출된 $n$명 중 찬성하는 사람의 수'를 의미하므로. 전체 모집단에 있어서의 찬성률 $P$의 추정량 $\hat P$는

$\hat P = \frac{찬성하는\ 사람의\ 수}{표본의\ 수} = \frac{X}{n}$

와 같이 정의 할 수 있다. $\hat P$의 평균과 분산은 각각

$E(\hat P) = P$

$Var(\hat P) = \frac{1}{n}P(1-P)$

이며, $n$이 클 때 중심극한정리에 의해

$\hat P \sim N(N,\frac{P(1-P)}{n})$

와 같이 정규분포를 따른다고 할 수 있다.


9.4 $t$분포와 $\chi^{2}$분포

9.4.1 $t$분포

여기서부터 조금 복잡해진다. 아무생각없이 받아들이면 무슨말인지 잘 모르게되는데.....흐름을 잘 따라오면 이해할수 있다. 지금까지 평균, 분산, 공분산 등 여러 통계량(적절한 단어선택인지는 모르겠지만)들을 배웠고 이를 배운 것은 통계를 하기 위함이다. 사실 모든 통계가 그렇듯이 전수조사를 하면 좋겠지만 전수조사를 하기엔 시간도 돈도 효율적이지 않으므로 표본조사를 배운것이다. 그래서 표본을 여러개 뽑아서 표본들의 평균과 분산을 구해서 전체집단 즉, 모집단을 추측해보겠다는 것인데....중요한건 우리가 모집단에 대해서는 아는것이 없고, 표본들의 통계량만 갖고 하겠다는 것이다. 그래서 $\mu$도 $\sigma^{2}$도 아는게 없다. 하지만 모집단이 정규분포를 따르므로 표본들의 분포도 정규분포이고 따라서 $\overline X \sim N(\mu, \frac{\sigma^{2}}{n})$과 같이 $\overline X$의 분포를 표현할 수 있다. 이를 표준화공식에 의해

$Z = \frac{\overline X - \mu}{\sigma/n} \sim N(0,1)$

와 같이 표준정규확률변수 $Z$를 정의하는데...위에서 말했듯이 $\mu$와 $\sigma$는 모르므로 $Z$를 실제로 구할 수 가 없다...!!

그래서 모표준편차인 $\sigma$대신 표본표준편차인 $S$를 사용해서 식을 유도하고 이와같이 유도된 값을 

$T = $$\frac{\overline X - \mu}{S/\sqrt{n}}$

과 같이 정의한다. 이와같이 정의된 $T$값은 확률변수로서 이 확률변수 $T$의 분포를 $t$분포라 한다. 일반적으로 $n=30$이상인 경우 $T$값의 분포는 표준정규분포를 따른다고 생각한다.

 더 쉽게 말하자면, 표본들의 분포를 모집단의 분포와 가장 적합한 것으로 보고싶은것이다.


교과서적으로 정리하자면

$(X_{1}, X_{2}, \cdots, X_{n})$을 $N(\mu,\sigma^{2})$으로부터의 확률표본이라 할 때, 확률변수 $T$를 

$T = \frac{\overline X - \mu}{S/\sqrt{n}}$, 여기에서 $\overline X = \frac{1}{n}\sum_{i=1}^{n}X_{n}, S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline X)^{2}$

으로 정의하면, $T$는 자유도$(d.f.)$가 $n-1$인 $t$분포를 따르며 $T \sim t(n-1)$로 표현한다.


9.4.1 $\chi^{2}$분포 (18.1.24.)

얘는 카이제곱분포라고 읽는다. 원래 통계를 극혐했는데 다른 공부를 하다보니 통계가 필요해서 다시 하고 있는데...t분포랑 비슷하다. t분포가 모평균의 추정량인 표본평균 $\overline X$의 분포를 구하는데 이용된다면 $\chi^{2}$분포는 모분산의 추정량인 표본분산 $S^{2}$의 분포를 구하는데 이용한다. 

정의는 다음과 같다.


확률변수 $Z_{1}, Z_{2}, \cdots, Z_{n}$이 서로 독립적으로 표준정규분포 $N(0,1)$을 따를 때, $Z_{1}, Z_{2}, \cdot, Z_{n}$의 제곱합 $\sum_{i=1}^{n}Z_{i}^{2}$은 자유도가 $n$인 $\chi^{2}$분포를 따른다. 자유도가 $n$인 $\chi^{2}$분포의 평균과 분산은 다음과 같다. 즉 $X^{2} \sim \chi_{n}^{2}$일 때

$E(X^{2}) = n$

$Var(X^{2}) = 2n$

이다. 

즉, 정규모집단에서 추출된 $n$개의 확률표본으로부터 구한 표본분산의 함수인 $X^{2}$은 $\chi_{n-1}^{2}$을 따르며, 이 분포는 모분산 $\sigma^{2}$에 대한 추론에 이용된다. 마찬가지로 자유도가 클수록 정규분포와 근사한 분포 형태를 갖는다.


9.4 구간추정(interval estimation)

고등학교때 배웠던 개념이니까...나중에 시간이 된다면...정리를 함 해보자...ㅠ

----------------------------------------------------------------------------------------------------------------------------



$ a^2 + b^2 = c^2 $

+ Recent posts