DAY29 - 통계량분포(카이제곱분포, F분포)
카이제곱분포
- 표준정규분포를 따르는 확률변수 $X$에서 만들어 낸 표본 $N$개의 제곱합이 따르는 분포
$$ \sum_{i=1}^N x_i^2 \sim \chi^2(x;\nu=N) $$
- 카이제곱분포의 확률밀도함수
$$ \chi^2(x; \nu) = \frac{x^{(\nu/2-1)} e^{-x/2}}{2^{\nu/2} \Gamma\left(\frac{\nu}{2}\right)} $$
- 파이썬에서 scipy.stats의 chi2 클래스를 이용해 구현 가능
카이제곱분포의 모수는 "자유도"라고 하는 값인데 자유도에 따라서 카이제곱분포의 형태가 달라집니다.
카이제곱분포 확률변수는 표준정규분포를 따르는 확률변수들의 제곱합입니다.
표준정규분포는 평균값이 0이기 때문에 그 확률변수 역시 0이 자주 등장하게 됩니다.
이러한 점을 고려했을 때 0 근처의 값들을 제곱합하더라도 0근처의 값이 나오게 될 것 같은데 자유도가 높아질수록 즉 더해지는 확률변수의 수가 많아지면 그렇지 않게됩니다.
이 이유는 "중심극한정리"에서 찾을 수 있습니다. 임의의 분포를 따르는 확률변수 $N$개를 더해 만들어진 확률변수는 $N$이 커질수록 정규분포에 수렴한다고 하였습니다.
카이제곱분포에서도 $N$개의 표준정규분포 확률변수의 제곱합은 결국 $N$개의 자유도가 1인 카이제곱분포 확률변수의 합이나 마찬가지입니다.
확률변수의 합은 $N$이 커질수록 정규분포로 수렴하기 때문에 위와 같은 현상이 발생하는 것입니다.
실제로 $N$을 키우면 정규분포와 비슷한 모양이 됩니다.
F분포
- 카이제곱분포를 따르는 두 확률변수에서 나온 표본을 각각의 자유도 모수로 나눈 비율이 따르는 분포
$$ x_1 \sim \chi^2(N_1),\, x_2 \sim \chi^2(N_2) \;\; \rightarrow \;\; \frac{\frac{x_1}{N_1}}{\frac{x_2}{N_2}} \sim F(x; N_1, N_2) $$
- F분포의 확률밀도함수
$$ F(x; N_1,N_2) = \dfrac{\sqrt{\dfrac{(N_1\,x)^{N_1}\,\,N_2^{N_2}} {(N_1\,x+N_2)^{N_1+N_2}}}} {x\;\text{B}\left(\frac{N_1}{2},\frac{N_2}{2}\right)} $$
- 파이썬에서 scipy.stats의 f 클래스를 이용해서 구현
두 카이제곱분포의 자유도가 같은 경우 동일한 과정을 통해 만들어진 두 개의 표본을 나눈 것이 F분포를 따른다고 이야기하게 되기 때문에 1근처의 값이 가장 많이 등장할 것 같으나 실제로는 그렇지 않다는 점의 주의해야 합니다.