STUDY_SEONMIN
DAY28 - 통계량분포(스튜던트t분포) 본문
통계량분포
- 정규분포에서 생성된 표본 데이터 집합에 여러 수식을 적용하여 값을 변화시키면 그 분포가 달라지는데 달라진 후의 분포들을 '통계량분포'라고 합니다.
- 대표적으로 스튜던트 t분포, 카이제곱분포, F분포가 있습니다.
스튜던트 t분포
- 정규분포와 상당히 유사하지만 양 끝단의 비중이 정규분포에 비해 더 큰 데이터들이 따르는 분포
- 스튜던트 t분포의 확률밀도함수
$$ t(x;\mu, \lambda, \nu) = \frac{\sqrt{\lambda}}{\sqrt{\nu\pi}}\frac{\Gamma\left(\frac{\nu+1}{2}\right)} {\Gamma\left(\frac{\nu}{2}\right)} \left(1+\lambda\frac{(x-\mu)^2}{\nu} \right)^{-\frac{\nu+1}{2}} \tag{8.5.1} $$
위 식에서 $\gamma$는 정규분포에서 정밀도에 대응하는 개념이고, $\Gamma(x)$는 감마함수라고 하는 특수함수입니다.
$$ \Gamma(x) = \int_0^\infty u^{x-1} e^{-u} du $$
$\nu$는 자유도라고 하는 값인데 자유도가 증가할수록 정규분포로 수렴하는 모습을 보입니다.
- 스튜던트 t분포의 모멘트는 다음과 같습니다.
$$ E[X] = \mu $$
$$ Var[X] = \frac{\nu}{\lambda(\nu-2)} $$
- 정규분포에서 나온 데이터들의 표본평균을, 표본표준편차를 이용해 정규화한 값을 "t통계량"이라고 하는데, "t통계량"이 따르는 분포가 스튜던트 t분포입니다.
$$ t = \frac{\bar{x} - \mu}{\dfrac{s}{\sqrt{N}}} \sim t \, (x; 0, 1, N - 1) $$
$$ \bar{x} = \frac{x_1+\cdots+x_N}{N} $$
$$ s^2 = \frac{1}{N-1}\sum_{i=1}^N (x_i - \bar{x})^2 $$
- 파이썬에서는 scipy.stats 패키지의 t 클래스를 이용해 스튜던트 t분포를 구현할 수 있습니다.
각 분포의 확률밀도함수를 보면 스튜던트 t분포의 확률밀도함수에서 양 끝단의 비중이 정규분포에 비해서 높은 것을 알 수 있습니다.
t통계량이 스튜던트 t분포를 따르는 지도 확인해보겠습니다.
N = 4인 표본집합을 1000개 생성하여 각 표본집합의 표본평균과 표본표준편차를 이용해 정규화한 값들이 어떠한 분포를 이루고 있는 지를 시각화해보았습니다.
앞서 스튜던트 t분포는 정규분포와 비슷하지만 정규분포에 비해 양 끝단의 비중이 높은 분포라고 하였는데 실제로 "t통계량"이 그러한 모습을 띄고 있는 것을 확인할 수 있습니다.
'EDUCATION > DSS Online 6기' 카테고리의 다른 글
DAY29 - 다변수정규분포 (0) | 2021.03.02 |
---|---|
DAY29 - 통계량분포(카이제곱분포, F분포) (0) | 2021.03.01 |
DAY28 - 정규분포와 중심극한정리 (0) | 2021.03.01 |
DAY28 - 카테고리분포와 다항분포 (0) | 2021.02.26 |
DAY27 - 베르누이 분포와 이항분포 (0) | 2021.02.26 |