STUDY_SEONMIN

DAY28 - 통계량분포(스튜던트t분포) 본문

EDUCATION/DSS Online 6기

DAY28 - 통계량분포(스튜던트t분포)

Kululu_ 2021. 3. 1. 19:11

통계량분포

- 정규분포에서 생성된 표본 데이터 집합에 여러 수식을 적용하여 값을 변화시키면 그 분포가 달라지는데 달라진 후의 분포들을 '통계량분포'라고 합니다.

- 대표적으로 스튜던트 t분포, 카이제곱분포, F분포가 있습니다.

 

 

스튜던트 t분포

- 정규분포와 상당히 유사하지만 양 끝단의 비중이 정규분포에 비해 더 큰 데이터들이 따르는 분포

- 스튜던트 t분포의 확률밀도함수

$$ t(x;\mu, \lambda, \nu) = \frac{\sqrt{\lambda}}{\sqrt{\nu\pi}}\frac{\Gamma\left(\frac{\nu+1}{2}\right)} {\Gamma\left(\frac{\nu}{2}\right)} \left(1+\lambda\frac{(x-\mu)^2}{\nu} \right)^{-\frac{\nu+1}{2}} \tag{8.5.1} $$

 

위 식에서 $\gamma$는 정규분포에서 정밀도에 대응하는 개념이고, $\Gamma(x)$는 감마함수라고 하는 특수함수입니다.

$$ \Gamma(x) = \int_0^\infty u^{x-1} e^{-u} du $$

 

$\nu$는 자유도라고 하는 값인데 자유도가 증가할수록 정규분포로 수렴하는 모습을 보입니다.

- 스튜던트 t분포의 모멘트는 다음과 같습니다.

$$ E[X] = \mu $$

$$ Var[X] = \frac{\nu}{\lambda(\nu-2)} $$

 

 

- 정규분포에서 나온 데이터들의 표본평균을, 표본표준편차를 이용해 정규화한 값을 "t통계량"이라고 하는데, "t통계량"이 따르는 분포가 스튜던트 t분포입니다.

$$ t = \frac{\bar{x} - \mu}{\dfrac{s}{\sqrt{N}}} \sim t \, (x; 0, 1, N - 1) $$

$$ \bar{x} = \frac{x_1+\cdots+x_N}{N} $$

$$ s^2 = \frac{1}{N-1}\sum_{i=1}^N (x_i - \bar{x})^2 $$

- 파이썬에서는 scipy.stats 패키지의 t 클래스를 이용해 스튜던트 t분포를 구현할 수 있습니다.

 

 

각 분포의 확률밀도함수를 보면 스튜던트 t분포의 확률밀도함수에서 양 끝단의 비중이 정규분포에 비해서 높은 것을 알 수 있습니다.

 

t통계량이 스튜던트 t분포를 따르는 지도 확인해보겠습니다.

 

N = 4인 표본집합을 1000개 생성하여 각 표본집합의 표본평균과 표본표준편차를 이용해 정규화한 값들이 어떠한 분포를 이루고 있는 지를 시각화해보았습니다.

 

앞서 스튜던트 t분포는 정규분포와 비슷하지만 정규분포에 비해 양 끝단의 비중이 높은 분포라고 하였는데 실제로 "t통계량"이 그러한 모습을 띄고 있는 것을 확인할 수 있습니다.

 

 

 

Comments