time series analysis 를 공부하기 위해서 기초적인 통계 지식이 필요함을 깨닫고 학부 2학년때 공부하던 기초통계지식을 정리해보려고 한다.

 
책의 내용은 굉장히 길지만 압축하고 간단하게 요약할것이므로......필요하다면 증명도...아무튼 정리를 시작해보도록 하자. 
원래 책은 기초적인 내용부터 너무나도 친절하게 잘 설명해주고 있지만....나는 내가 필요한것만 정리할거다ㅋㅋㅋ 


Let's go! 

---------------------------------------------------------------------------

6.7 평균, 분산과 공분산 

기댓값(expected value : 평균)

확률변수 $X$의 기댓값은 $E(X)$로 표현하며, 각각 다음과 같이 구한다.

1. 이산형 확률변수 

이산형 확률변수 $X$의 가능한 값이 $(x_{1},x_{2},\cdots,x_{n})$이며,

$P(X=x_{i})=P_{i}$    $i=1,2,\cdots,n$

일 때, $X$의 기댓값 $E(X)$는 $E(X)=\sum_{i=1}^{n}x_{i} \cdot P_{i}$이다.

2. 연속형 확률변수

연속형 확률변수 $X$의 확률밀도함수가 $f(x)$라면, $X$의 기댓값 $E(X)$는 $E(X) = \int_{-\infty}^{\infty}x \cdot f(x)dx$이다.

*기댓값의 특성

$X, Y$를 확률변수 $a, b$를 상수라 할 때, 기댓값은 항상 다음 조건을 만족한다.

1. $E(a) = a$

2. $E(aX+b) = aE(X)+b$

3. $E(aX+bY)=aE(X)+bE(Y)$


분산

확률변수 $X$의 분산(variance)은 $E(X)=\mu$라 할 때 $X$와 $\mu$의 편차의 제곱, 즉 $(X-\mu)^{2}$의 기댓값으로 $Var(X)$ 또는 $\sigma_{X}^{2}$로 표현되며 $\sigma_{X}^{2}=E[(X-\mu)^{2}]$으로 구한다.

* $\sigma$ 즉, 분산의 양의 제곱근을 표준편차(standard deviation)라 하며, $\sigma$로 표현한다.


공분산(covariance)

공분산은 두 확률변수 $X, Y$가 있을 때 각각의 확률변수와 그 확률 변수의 평균과의 편차, 즉 $(X-\mu_{X})$와 $(Y-\mu_{Y})$를 구한 후에 그 편차의 곱에 대한 기댓값으로 $E[(x-\mu_{X})(Y-\mu_{Y})]$로 정의 된다. 이와 같은 공분산은 두 확률변수의 결합분포를 알고 있는 경우에 구할 수 있는 모수로, 두 변수 사이의 관계의 밀집도를 측정하는 상관계수(correlation coefficient)를 구하는 과정에서 계산되는 경우가 많다.

 (사실 학부때부터 굉장히 고민이 많았던 개념인다. 왜 $|x_{i}-\mu_{x}|$ 와 $|y_{i}-\mu_{y}|$를 곱한 것의 기댓값이 두 집단의 상관관계를 결정짓는 것인지 아직도 의문인것 같다....)

 두 확률변수 $X$와 $Y$의 공분산(covariance)은 $Cov(X,Y)$ 또는 $\sigma_{XY}$로 표현하며, 다음과 같이 계산한다. 

$\sigma_{XY} = E[(x-\mu_{X})(Y-\mu_{Y})] = E(XY)-\mu_{X}\cdot\mu_{Y}$


* 독립성과 공분산

두 확률변수 $X, Y$가 서로 독립이면 두 확률변수의 공분산은 $0$이다. 즉, $\sigma_{XY} = 0$이다. 그러나 두 확률변수의 공분산이 $0$이라고 해서 두 확률변수가 항상 독립은 아니다.

* 상관계수 

두 확률변수 $X$와 $Y$에 대해 $\sigma_{X}^{2}, \sigma_{Y}^{2}$을 각각의 분사이라 하고, $\sigma_{XY}$를 $X$와 $Y$의 공분산이라 할 때, $X$와 $Y$의 상관계수(correlation coefficient)는 $\rho = \frac{\sigma_{XY}}{\sigma_{X}\cdot\sigma_{Y}}$으로 정의한다.

----------------------------------------------------------------------------------------------------------------------------

7장과 8장의 내용인 이산확률분포의 내용과 연속확률분포의 내용은 생략하도록 하겠다.(넘 쉽고 그냥 정의대로 하면 되니까....)

----------------------------------------------------------------------------------------------------------------------------

9장 확률표본과 추정

9.1 확률표본과 통계량

확률변수 $X$가 특정 확률분포를 따른다고 할 때, 이 확률분포로부터 각각 독립적으로 관측된 $n$개의 표본을 확률표본(random sample)이라 한다. 이 표본을 $(X_{1}, X_{2}, \cdots, X_{n})$이라 할 때, $X_{1}, X_{2}, \cdots, X_{n}$은 확률변수로 상호독립이며, 각각의 $X$와 동일한 분포를 갖는다.


9.2중심극한정리

 평균이 $\mu$이고 분산이 $\sigma^{2}$인 확률분포로부터 크기가 $n$인 확률표본 $(X_{1}, X_{2}, \cdots, X_{n})$을 추출 할 때, 표본평균 $\overline X = \frac{1}{n} \sum X_{i}$는 $n$이 클수록 평균이 $\mu$이고 분산이 $\frac{\sigma^{2}}{n}$인 정규분포와 근사한 분포를 갖는다.  

즉, $\overline X$의 분포는 $\overline X \sim N(\mu,\frac{\sigma^{2}}{n})$ 과 같이 표현한다.

 만약 확률표본 $(X_{1}, X_{2}, \cdots, X_{n})$이 평균 $\mu$와 분산 $\sigma^{2}$을 갖는 정규분포에서 추출되었다면, 표본평균 $\overline X$의 분포는 $n$의 크기에 관계없이 평균 $\mu$와 분산 $\frac{\sigma^{2}}{n}$을 갖는 정규분포를 따른다. 

즉, $\overline X$의 분포는 $\overline X \sim N(\mu,\frac{\sigma^{2}}{n})$이다.


9.3 점추정(point estimation)

 점추정이란 '모수가 특정 값일 것이다.'라고 추정하는것.

   추정량(estimator) : 표본으로부터 구한 통계량 중 모집단의 모수를 추정하는 통계량

   추정치(estimate) : 특정 표본으로부터 구한 추정량의 구체적인 값

   모집단의 평균(모평균) $\mu$의 추정량으로 생각할 수 있는 통계량은 '표본평균', '표본중위수', '최솟값', '최댓값', '최솟값과 최댓값의 평균' 등이 있다.

   **추정량의 2가지 고려사항

      1. 추정량은 확률표본 $(X_{1}, X_{2}, \cdots, X_{n})$에 있는 확률변수 $X_{1}, \cdots, X_{n}$의 함수이므로 추정량 또한 확률변수이고, 추정량도 특정한 확률분포를 가진다.

      2. 특정 모수에 대한 여러가지 추정량 중 가장 바람직한 추정량을 선택해야 한다. 즉, 분산이 작은 추정량.

         * 불편추정량(unbiased estimator) : 분포의 중심이 모수인 추정량

         * 최소분산추정량(minimum variance estimator) : 분산이 가장 작은 추정량

         * 최소분산불편추정량(minimum variance unbiased estimator) : 분포의 중심이 모수이고 분산이 작은 추정량

   모분산의 추정량 

     $(X_{1}, X_{2}, \cdots, X_{n})$을 평균 $\mu$와 분산 $\sigma^{2}$을 갖는 모집단으로부터의 확률표본이라 할 때, 모분산 $\sigma^{2}$의 추정량은 

$S^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline X)^{2}$ 

로 정의한다.

$S^{2}$을 표본분산이라 하며, $S^{2}$의 양의 제곱근 $S=\sqrt{S^{2}}$을 표본 표준편차라 하는데, $S^{2}$은 $\sigma^{2}$의 불편추정량이나 최소분산을 갖는 추정량은 아니며, 최소분산을 갖는 $\sigma^{2}$의 추정량은

$S^{*2}=\frac{1}{n} \sum_{i=1}^{n}(X_{i}- \overline X)^{2}$


   모비율의 추정량 

모비율이란? 모집단의 특성을 나타내는 비율....

자료분석에 있어서 특정 법안에 대한 찬성비율이라든지 또는 호주제도 폐지안에 대해 찬성하는 사람의 비율 등 모집단의 비율 $P$를 추정하는 경우가 있다. (이러한 경우에 이용되는 확률분포가 이항분포이다.)

$n$개의 표본을 추출해 위와 같은 조사를 실시한다고 할 때, 표본은 $(X_{1}, X_{2}, \cdots, X_{n})$와 같이 표현할 수 있으며, $X_{i}, i=1,2,\cdot,n$은 특정 안건에 대한 찬성/반대 중 하나를 나타내는 확률변수 이므로 이항확률변수의 정의에 의해

$X_{i} = \begin{cases} 1 \quad i번째\ 사람이\ 찬성한\ 경우\\ 0 \quad i번째\ 사람이\ 반대인\ 경우 \end{cases}$

와 같이 표현할 수 있다. 통계량 $X$를

$X = \sum_{n=1}^{n}X_{i}$

와 같이 정의하면 $X$는 '표본으로 추출된 $n$명 중 찬성하는 사람의 수'를 의미하므로. 전체 모집단에 있어서의 찬성률 $P$의 추정량 $\hat P$는

$\hat P = \frac{찬성하는\ 사람의\ 수}{표본의\ 수} = \frac{X}{n}$

와 같이 정의 할 수 있다. $\hat P$의 평균과 분산은 각각

$E(\hat P) = P$

$Var(\hat P) = \frac{1}{n}P(1-P)$

이며, $n$이 클 때 중심극한정리에 의해

$\hat P \sim N(N,\frac{P(1-P)}{n})$

와 같이 정규분포를 따른다고 할 수 있다.


9.4 $t$분포와 $\chi^{2}$분포

9.4.1 $t$분포

여기서부터 조금 복잡해진다. 아무생각없이 받아들이면 무슨말인지 잘 모르게되는데.....흐름을 잘 따라오면 이해할수 있다. 지금까지 평균, 분산, 공분산 등 여러 통계량(적절한 단어선택인지는 모르겠지만)들을 배웠고 이를 배운 것은 통계를 하기 위함이다. 사실 모든 통계가 그렇듯이 전수조사를 하면 좋겠지만 전수조사를 하기엔 시간도 돈도 효율적이지 않으므로 표본조사를 배운것이다. 그래서 표본을 여러개 뽑아서 표본들의 평균과 분산을 구해서 전체집단 즉, 모집단을 추측해보겠다는 것인데....중요한건 우리가 모집단에 대해서는 아는것이 없고, 표본들의 통계량만 갖고 하겠다는 것이다. 그래서 $\mu$도 $\sigma^{2}$도 아는게 없다. 하지만 모집단이 정규분포를 따르므로 표본들의 분포도 정규분포이고 따라서 $\overline X \sim N(\mu, \frac{\sigma^{2}}{n})$과 같이 $\overline X$의 분포를 표현할 수 있다. 이를 표준화공식에 의해

$Z = \frac{\overline X - \mu}{\sigma/n} \sim N(0,1)$

와 같이 표준정규확률변수 $Z$를 정의하는데...위에서 말했듯이 $\mu$와 $\sigma$는 모르므로 $Z$를 실제로 구할 수 가 없다...!!

그래서 모표준편차인 $\sigma$대신 표본표준편차인 $S$를 사용해서 식을 유도하고 이와같이 유도된 값을 

$T = $$\frac{\overline X - \mu}{S/\sqrt{n}}$

과 같이 정의한다. 이와같이 정의된 $T$값은 확률변수로서 이 확률변수 $T$의 분포를 $t$분포라 한다. 일반적으로 $n=30$이상인 경우 $T$값의 분포는 표준정규분포를 따른다고 생각한다.

 더 쉽게 말하자면, 표본들의 분포를 모집단의 분포와 가장 적합한 것으로 보고싶은것이다.


교과서적으로 정리하자면

$(X_{1}, X_{2}, \cdots, X_{n})$을 $N(\mu,\sigma^{2})$으로부터의 확률표본이라 할 때, 확률변수 $T$를 

$T = \frac{\overline X - \mu}{S/\sqrt{n}}$, 여기에서 $\overline X = \frac{1}{n}\sum_{i=1}^{n}X_{n}, S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline X)^{2}$

으로 정의하면, $T$는 자유도$(d.f.)$가 $n-1$인 $t$분포를 따르며 $T \sim t(n-1)$로 표현한다.


9.4.1 $\chi^{2}$분포 (18.1.24.)

얘는 카이제곱분포라고 읽는다. 원래 통계를 극혐했는데 다른 공부를 하다보니 통계가 필요해서 다시 하고 있는데...t분포랑 비슷하다. t분포가 모평균의 추정량인 표본평균 $\overline X$의 분포를 구하는데 이용된다면 $\chi^{2}$분포는 모분산의 추정량인 표본분산 $S^{2}$의 분포를 구하는데 이용한다. 

정의는 다음과 같다.


확률변수 $Z_{1}, Z_{2}, \cdots, Z_{n}$이 서로 독립적으로 표준정규분포 $N(0,1)$을 따를 때, $Z_{1}, Z_{2}, \cdot, Z_{n}$의 제곱합 $\sum_{i=1}^{n}Z_{i}^{2}$은 자유도가 $n$인 $\chi^{2}$분포를 따른다. 자유도가 $n$인 $\chi^{2}$분포의 평균과 분산은 다음과 같다. 즉 $X^{2} \sim \chi_{n}^{2}$일 때

$E(X^{2}) = n$

$Var(X^{2}) = 2n$

이다. 

즉, 정규모집단에서 추출된 $n$개의 확률표본으로부터 구한 표본분산의 함수인 $X^{2}$은 $\chi_{n-1}^{2}$을 따르며, 이 분포는 모분산 $\sigma^{2}$에 대한 추론에 이용된다. 마찬가지로 자유도가 클수록 정규분포와 근사한 분포 형태를 갖는다.


9.4 구간추정(interval estimation)

고등학교때 배웠던 개념이니까...나중에 시간이 된다면...정리를 함 해보자...ㅠ

----------------------------------------------------------------------------------------------------------------------------



+ Recent posts