1.2 Some Time Series Data
다음 예제는시계열 데이터의 종류중 일부와 데이터에 대해 질문할 수 있는 통계적 문제를 보여준다.


Example 1.1 Johnson & Johnson Quarterly Earnings
그림 1.1 은 미국 존슨 앤 존슨 회사의 분기별 주당 순이익을 나타낸 것이다. 21년간 1960년 1분기 부터 1980년 4분기 까지 84개월을 측정한 것이다. 이러한 시계열의 모델링은 시간적 역사에서 주된 패턴을 발견함으로써 시작한다. 이러한 경우에는, 경향과 변동성을 기반으로 증가하는 것이 아니라, 분기별로 다소 반복되는 것 처럼 보이는 경향위에 규칙적인 가변성을 겹치는 것이다. 이러한 데이터의 분석 방법은 회귀 기법을 이용한 Chapter 2에서 연구된다.(Problem 2.1 을 보라) 또한 그림 1.1 과 1.2를 비교해보라.


  

R에서 astsa 패키지를 이용하여 이 예제에 대한 데이터의 점을 찍는다.(로그데이터는 스스로 점을 찍어 보라)

library(astsa)      # ** SEE FOOTNOTE

tsplot(jj, type = "o", ylab="Quarterly Earnings per Share")

tsplot(log(jj))     # not shown 

 

Example 1.2 Global Warming 
그림 1.3에 보이는 지구의 온도 기록에 대해 살펴보자. 이 데이터는 1951년~1980년 기간을 기반으로 한 1880년 부터 2015년까지 지구의 지표와 해양의 온도 지표의 평균이다. 값들은 1951-1980년 동안의 평균 ( Hansen et al.(2006))에서 갱신된 편차(℃)이다. 그래프에서 20세기의 후반기 부분동안 증가하는 경향은 기후변화가설에 대한 논거로서 사용되어 왔다. 추세가 선형이 아니고, 정체된 구간 이후에 날카로운 상승추세를 주목하라. 전체적인 추세가 자연스러운건지 인간이 유도한 인터페이스 때문인지는 흥미로운 질문이다. 이 예제의 R 코드는 다음과 같다.

tsplot(globtemptype="o", ylab ="Global Temperature Deviations")


Example 1.3 Dow Jones Industrial Average(DJIA) 

그림 1.4는 금융 시계열 데이터의 예제로서 2006년부터 2016년 까지 다우존스 산업평균지수의 일일 수익률을 보여준다. 2008년 금융위기를 쉽게 파악할 수 있다. 그림 1.4에서 보여주는 데이터는 전형적인 반환 데이터이다. 이 시계열의 평균은 대략 0으로 반환되는 평균으로 안정되게 나타나지만, 데이터의 변동성은 군집을 보여준다. 즉, 높은 변동 기간은 함께 군집을 이루는 경향이 있다. 금융데이터의 이러한 유형의 분석에서 문제는 미래의 수익변동성을 예측하는 것이다. Chapter 5를 보면 이러한 문제를 다루는 모델이 개발되어 있다. 그래서 우리는 x_%7B%20t%20%7D%20 가 다우존스 산업평균지수의 실제 값이고  r_%7B%20t%20%7D%3D(x_%7B%20t%20%7D-x_%7B%20t-1%20%7D)%2Fx_%7B%20t-1%20%7D%20반환된다면 1%2Br_%7B%20t%20%7D%3Dx_%7B%20t%20%7D%2Fx_%7B%20t-1%20%7D%20와 log(1%2Br_%7B%20t%20%7D)%3Dlog(x_%7B%20t%20%7D%2Fx_%7B%20t-1%20%7D)%3Dlog(x_%7B%20t%20%7D)-log(x_%7B%20t-1%20%7D)%5Capprox%20r_%7B%20t%20%7D%20라는 사실을 사용한다.

데이터 집합은 astsa 에서 제공되고 xts 를 로드해야한다.

library(xts)

djiar = diff(log(djia$Close))[-1]           # approximate returns

tsplot(djiarmain="DJIA Returns", xlab = ' ' , margins = .5)


Example 1.4 El Nino and Fish Population
우리는 또한 한번에 여러 시계열을 분석하는데 관심이 있을수 있다. 그림 1.5는 Southern Oscillation Index(SOI)라고 불리는 환경 시리즈와 관련 채용 정보(그리고 새로운 물고기의 수)의 월별 값을 보여준다. 두 시리즈는 1950년-1987년 동안의 453개월 동안 격렬히 움직이고 있다. SOI는 중앙태평양에서 해수면의 온도와 연관된 공기압의 변화에 대해 측정한다. 중앙 태평양은 엘니뇨(El Nino)효과로 인해 3-7년 마다 따듯하게 되며, 이는 다양한 지구 기상 이변에 대한 책임이 있다. 이 시리즈는 두가지 기본적인 진동유형과, 명백한 연간주기(여름에는 덥고, 겨울에는 추운)와 4년마다 반복되는 느린주기를 보여준다. 주기의 종류와 강점에 대한 연구는 Chapter 4의 주제이다. 두 시리즈는 서로 연관되어 있고, 어류개체수가 해양 온도에 의존한다고 생각하기 쉽다. 그림 1.5를 다음 R코드로 생성해보자.


log(1%2Bp)%3Dp-%5Cfrac%20%7B%20p%5E%7B%202%20%7D%20%7D%7B%202%20%7D%2B%5Cfrac%20%7B%20p%5E%7B%203%20%7D%20%7D%7B%203%20%7D-...%20 for -1%3Cp%5Cle%201%20. If p%20 in near zero, the higher-order terms in the expansion are negligible.

par(mfrow = c(2,1))    # set up the grphics

tsplot(soiylab="", xlab"", main="Southern Oscilltion Index")

tsplot(rexylab="", main="Recruitment")


Example 1.5 fMRI Imaging

​종종 시계열은 다양한 실험적 상황이나 치료 구성하에서 관찰된다. 이러한 일련의 데이터가 그림 1.6에 나와 있으며, 데이터는 기능적 자기 공명영상(fMRI)을 통해 뇌의 여러 위치에서 수집된다. 이 예에서 자극은 32초 동안 가해진 다음 32초 동안 중지되었다. 따라서, 신호주기는 64초 이다. 256초(n=128) 동안 2초마다 한 번씩 관찰하는 속도로 샘플링이 이루어 졌다. 시리즈는 뇌의 활성화 영역을 측정하는 혈액 산소 수준 의존적 신호세기의 연속적 측정이다. 주기는 운동 피질 계열에서 강하게 나타나고 시상과 소뇌에서 강력하게 나타난다. 두뇌의 다른 영역에서 시리즈를 가지고 있다는 사실은 그 영역이 브러시 자극에 다르게 반응하는지 테스트 하는것을 제안한다. 다음 R 명령을 사용하여 데이터를 플롯한다.
 

par(mfrow=c(2,1), mar=c(3,2,1,0)+.5mgp=c(1.6,.6,0))

ts.plot(fmril[,2:5], col=1:4ylab="BOLD", xlab="", main="Cortex")

ts.plot(fmril[,6:9], col=1:4ylab="BOLD", xlab="", main="Thalam & Cereb")

mtext("Time (1 pt = 2 sec)", side=1line=2)




R.H Shumway & D.S. Stoffer published by free dog publishing
" Time Series Analysis Using the R Statistical Package"
http://www.stat.pitt.edu/stoffer/tsa4/

'수학 > Time Series Analysis' 카테고리의 다른 글

[시계열분석] Intro  (0) 2020.10.04


time series analysis 를 공부하기 위해서 기초적인 통계 지식이 필요함을 깨닫고 학부 2학년때 공부하던 기초통계지식을 정리해보려고 한다.

 
책의 내용은 굉장히 길지만 압축하고 간단하게 요약할것이므로......필요하다면 증명도...아무튼 정리를 시작해보도록 하자. 
원래 책은 기초적인 내용부터 너무나도 친절하게 잘 설명해주고 있지만....나는 내가 필요한것만 정리할거다ㅋㅋㅋ 


Let's go! 

---------------------------------------------------------------------------

6.7 평균, 분산과 공분산 

기댓값(expected value : 평균)

확률변수 $X$의 기댓값은 $E(X)$로 표현하며, 각각 다음과 같이 구한다.

1. 이산형 확률변수 

이산형 확률변수 $X$의 가능한 값이 $(x_{1},x_{2},\cdots,x_{n})$이며,

$P(X=x_{i})=P_{i}$    $i=1,2,\cdots,n$

일 때, $X$의 기댓값 $E(X)$는 $E(X)=\sum_{i=1}^{n}x_{i} \cdot P_{i}$이다.

2. 연속형 확률변수

연속형 확률변수 $X$의 확률밀도함수가 $f(x)$라면, $X$의 기댓값 $E(X)$는 $E(X) = \int_{-\infty}^{\infty}x \cdot f(x)dx$이다.

*기댓값의 특성

$X, Y$를 확률변수 $a, b$를 상수라 할 때, 기댓값은 항상 다음 조건을 만족한다.

1. $E(a) = a$

2. $E(aX+b) = aE(X)+b$

3. $E(aX+bY)=aE(X)+bE(Y)$


분산

확률변수 $X$의 분산(variance)은 $E(X)=\mu$라 할 때 $X$와 $\mu$의 편차의 제곱, 즉 $(X-\mu)^{2}$의 기댓값으로 $Var(X)$ 또는 $\sigma_{X}^{2}$로 표현되며 $\sigma_{X}^{2}=E[(X-\mu)^{2}]$으로 구한다.

* $\sigma$ 즉, 분산의 양의 제곱근을 표준편차(standard deviation)라 하며, $\sigma$로 표현한다.


공분산(covariance)

공분산은 두 확률변수 $X, Y$가 있을 때 각각의 확률변수와 그 확률 변수의 평균과의 편차, 즉 $(X-\mu_{X})$와 $(Y-\mu_{Y})$를 구한 후에 그 편차의 곱에 대한 기댓값으로 $E[(x-\mu_{X})(Y-\mu_{Y})]$로 정의 된다. 이와 같은 공분산은 두 확률변수의 결합분포를 알고 있는 경우에 구할 수 있는 모수로, 두 변수 사이의 관계의 밀집도를 측정하는 상관계수(correlation coefficient)를 구하는 과정에서 계산되는 경우가 많다.

 (사실 학부때부터 굉장히 고민이 많았던 개념인다. 왜 $|x_{i}-\mu_{x}|$ 와 $|y_{i}-\mu_{y}|$를 곱한 것의 기댓값이 두 집단의 상관관계를 결정짓는 것인지 아직도 의문인것 같다....)

 두 확률변수 $X$와 $Y$의 공분산(covariance)은 $Cov(X,Y)$ 또는 $\sigma_{XY}$로 표현하며, 다음과 같이 계산한다. 

$\sigma_{XY} = E[(x-\mu_{X})(Y-\mu_{Y})] = E(XY)-\mu_{X}\cdot\mu_{Y}$


* 독립성과 공분산

두 확률변수 $X, Y$가 서로 독립이면 두 확률변수의 공분산은 $0$이다. 즉, $\sigma_{XY} = 0$이다. 그러나 두 확률변수의 공분산이 $0$이라고 해서 두 확률변수가 항상 독립은 아니다.

* 상관계수 

두 확률변수 $X$와 $Y$에 대해 $\sigma_{X}^{2}, \sigma_{Y}^{2}$을 각각의 분사이라 하고, $\sigma_{XY}$를 $X$와 $Y$의 공분산이라 할 때, $X$와 $Y$의 상관계수(correlation coefficient)는 $\rho = \frac{\sigma_{XY}}{\sigma_{X}\cdot\sigma_{Y}}$으로 정의한다.

----------------------------------------------------------------------------------------------------------------------------

7장과 8장의 내용인 이산확률분포의 내용과 연속확률분포의 내용은 생략하도록 하겠다.(넘 쉽고 그냥 정의대로 하면 되니까....)

----------------------------------------------------------------------------------------------------------------------------

9장 확률표본과 추정

9.1 확률표본과 통계량

확률변수 $X$가 특정 확률분포를 따른다고 할 때, 이 확률분포로부터 각각 독립적으로 관측된 $n$개의 표본을 확률표본(random sample)이라 한다. 이 표본을 $(X_{1}, X_{2}, \cdots, X_{n})$이라 할 때, $X_{1}, X_{2}, \cdots, X_{n}$은 확률변수로 상호독립이며, 각각의 $X$와 동일한 분포를 갖는다.


9.2중심극한정리

 평균이 $\mu$이고 분산이 $\sigma^{2}$인 확률분포로부터 크기가 $n$인 확률표본 $(X_{1}, X_{2}, \cdots, X_{n})$을 추출 할 때, 표본평균 $\overline X = \frac{1}{n} \sum X_{i}$는 $n$이 클수록 평균이 $\mu$이고 분산이 $\frac{\sigma^{2}}{n}$인 정규분포와 근사한 분포를 갖는다.  

즉, $\overline X$의 분포는 $\overline X \sim N(\mu,\frac{\sigma^{2}}{n})$ 과 같이 표현한다.

 만약 확률표본 $(X_{1}, X_{2}, \cdots, X_{n})$이 평균 $\mu$와 분산 $\sigma^{2}$을 갖는 정규분포에서 추출되었다면, 표본평균 $\overline X$의 분포는 $n$의 크기에 관계없이 평균 $\mu$와 분산 $\frac{\sigma^{2}}{n}$을 갖는 정규분포를 따른다. 

즉, $\overline X$의 분포는 $\overline X \sim N(\mu,\frac{\sigma^{2}}{n})$이다.


9.3 점추정(point estimation)

 점추정이란 '모수가 특정 값일 것이다.'라고 추정하는것.

   추정량(estimator) : 표본으로부터 구한 통계량 중 모집단의 모수를 추정하는 통계량

   추정치(estimate) : 특정 표본으로부터 구한 추정량의 구체적인 값

   모집단의 평균(모평균) $\mu$의 추정량으로 생각할 수 있는 통계량은 '표본평균', '표본중위수', '최솟값', '최댓값', '최솟값과 최댓값의 평균' 등이 있다.

   **추정량의 2가지 고려사항

      1. 추정량은 확률표본 $(X_{1}, X_{2}, \cdots, X_{n})$에 있는 확률변수 $X_{1}, \cdots, X_{n}$의 함수이므로 추정량 또한 확률변수이고, 추정량도 특정한 확률분포를 가진다.

      2. 특정 모수에 대한 여러가지 추정량 중 가장 바람직한 추정량을 선택해야 한다. 즉, 분산이 작은 추정량.

         * 불편추정량(unbiased estimator) : 분포의 중심이 모수인 추정량

         * 최소분산추정량(minimum variance estimator) : 분산이 가장 작은 추정량

         * 최소분산불편추정량(minimum variance unbiased estimator) : 분포의 중심이 모수이고 분산이 작은 추정량

   모분산의 추정량 

     $(X_{1}, X_{2}, \cdots, X_{n})$을 평균 $\mu$와 분산 $\sigma^{2}$을 갖는 모집단으로부터의 확률표본이라 할 때, 모분산 $\sigma^{2}$의 추정량은 

$S^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline X)^{2}$ 

로 정의한다.

$S^{2}$을 표본분산이라 하며, $S^{2}$의 양의 제곱근 $S=\sqrt{S^{2}}$을 표본 표준편차라 하는데, $S^{2}$은 $\sigma^{2}$의 불편추정량이나 최소분산을 갖는 추정량은 아니며, 최소분산을 갖는 $\sigma^{2}$의 추정량은

$S^{*2}=\frac{1}{n} \sum_{i=1}^{n}(X_{i}- \overline X)^{2}$


   모비율의 추정량 

모비율이란? 모집단의 특성을 나타내는 비율....

자료분석에 있어서 특정 법안에 대한 찬성비율이라든지 또는 호주제도 폐지안에 대해 찬성하는 사람의 비율 등 모집단의 비율 $P$를 추정하는 경우가 있다. (이러한 경우에 이용되는 확률분포가 이항분포이다.)

$n$개의 표본을 추출해 위와 같은 조사를 실시한다고 할 때, 표본은 $(X_{1}, X_{2}, \cdots, X_{n})$와 같이 표현할 수 있으며, $X_{i}, i=1,2,\cdot,n$은 특정 안건에 대한 찬성/반대 중 하나를 나타내는 확률변수 이므로 이항확률변수의 정의에 의해

$X_{i} = \begin{cases} 1 \quad i번째\ 사람이\ 찬성한\ 경우\\ 0 \quad i번째\ 사람이\ 반대인\ 경우 \end{cases}$

와 같이 표현할 수 있다. 통계량 $X$를

$X = \sum_{n=1}^{n}X_{i}$

와 같이 정의하면 $X$는 '표본으로 추출된 $n$명 중 찬성하는 사람의 수'를 의미하므로. 전체 모집단에 있어서의 찬성률 $P$의 추정량 $\hat P$는

$\hat P = \frac{찬성하는\ 사람의\ 수}{표본의\ 수} = \frac{X}{n}$

와 같이 정의 할 수 있다. $\hat P$의 평균과 분산은 각각

$E(\hat P) = P$

$Var(\hat P) = \frac{1}{n}P(1-P)$

이며, $n$이 클 때 중심극한정리에 의해

$\hat P \sim N(N,\frac{P(1-P)}{n})$

와 같이 정규분포를 따른다고 할 수 있다.


9.4 $t$분포와 $\chi^{2}$분포

9.4.1 $t$분포

여기서부터 조금 복잡해진다. 아무생각없이 받아들이면 무슨말인지 잘 모르게되는데.....흐름을 잘 따라오면 이해할수 있다. 지금까지 평균, 분산, 공분산 등 여러 통계량(적절한 단어선택인지는 모르겠지만)들을 배웠고 이를 배운 것은 통계를 하기 위함이다. 사실 모든 통계가 그렇듯이 전수조사를 하면 좋겠지만 전수조사를 하기엔 시간도 돈도 효율적이지 않으므로 표본조사를 배운것이다. 그래서 표본을 여러개 뽑아서 표본들의 평균과 분산을 구해서 전체집단 즉, 모집단을 추측해보겠다는 것인데....중요한건 우리가 모집단에 대해서는 아는것이 없고, 표본들의 통계량만 갖고 하겠다는 것이다. 그래서 $\mu$도 $\sigma^{2}$도 아는게 없다. 하지만 모집단이 정규분포를 따르므로 표본들의 분포도 정규분포이고 따라서 $\overline X \sim N(\mu, \frac{\sigma^{2}}{n})$과 같이 $\overline X$의 분포를 표현할 수 있다. 이를 표준화공식에 의해

$Z = \frac{\overline X - \mu}{\sigma/n} \sim N(0,1)$

와 같이 표준정규확률변수 $Z$를 정의하는데...위에서 말했듯이 $\mu$와 $\sigma$는 모르므로 $Z$를 실제로 구할 수 가 없다...!!

그래서 모표준편차인 $\sigma$대신 표본표준편차인 $S$를 사용해서 식을 유도하고 이와같이 유도된 값을 

$T = $$\frac{\overline X - \mu}{S/\sqrt{n}}$

과 같이 정의한다. 이와같이 정의된 $T$값은 확률변수로서 이 확률변수 $T$의 분포를 $t$분포라 한다. 일반적으로 $n=30$이상인 경우 $T$값의 분포는 표준정규분포를 따른다고 생각한다.

 더 쉽게 말하자면, 표본들의 분포를 모집단의 분포와 가장 적합한 것으로 보고싶은것이다.


교과서적으로 정리하자면

$(X_{1}, X_{2}, \cdots, X_{n})$을 $N(\mu,\sigma^{2})$으로부터의 확률표본이라 할 때, 확률변수 $T$를 

$T = \frac{\overline X - \mu}{S/\sqrt{n}}$, 여기에서 $\overline X = \frac{1}{n}\sum_{i=1}^{n}X_{n}, S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline X)^{2}$

으로 정의하면, $T$는 자유도$(d.f.)$가 $n-1$인 $t$분포를 따르며 $T \sim t(n-1)$로 표현한다.


9.4.1 $\chi^{2}$분포 (18.1.24.)

얘는 카이제곱분포라고 읽는다. 원래 통계를 극혐했는데 다른 공부를 하다보니 통계가 필요해서 다시 하고 있는데...t분포랑 비슷하다. t분포가 모평균의 추정량인 표본평균 $\overline X$의 분포를 구하는데 이용된다면 $\chi^{2}$분포는 모분산의 추정량인 표본분산 $S^{2}$의 분포를 구하는데 이용한다. 

정의는 다음과 같다.


확률변수 $Z_{1}, Z_{2}, \cdots, Z_{n}$이 서로 독립적으로 표준정규분포 $N(0,1)$을 따를 때, $Z_{1}, Z_{2}, \cdot, Z_{n}$의 제곱합 $\sum_{i=1}^{n}Z_{i}^{2}$은 자유도가 $n$인 $\chi^{2}$분포를 따른다. 자유도가 $n$인 $\chi^{2}$분포의 평균과 분산은 다음과 같다. 즉 $X^{2} \sim \chi_{n}^{2}$일 때

$E(X^{2}) = n$

$Var(X^{2}) = 2n$

이다. 

즉, 정규모집단에서 추출된 $n$개의 확률표본으로부터 구한 표본분산의 함수인 $X^{2}$은 $\chi_{n-1}^{2}$을 따르며, 이 분포는 모분산 $\sigma^{2}$에 대한 추론에 이용된다. 마찬가지로 자유도가 클수록 정규분포와 근사한 분포 형태를 갖는다.


9.4 구간추정(interval estimation)

고등학교때 배웠던 개념이니까...나중에 시간이 된다면...정리를 함 해보자...ㅠ

----------------------------------------------------------------------------------------------------------------------------



$ a^2 + b^2 = c^2 $

+ Recent posts