STUDY_SEONMIN
DAY30 - 확률분포의 추정3 본문
마지막 확률분포의 추정방법은 바로 "베이즈 추정법"입니다.
베이즈 추정법
- 그 전에 다뤘던 모멘트 추정법, 최대가능도 추정법은 특정 값을 추정치로 제시하는 데에 반해 베이즈 추정법은 모수의 분포에 대한 정보를 제공한다는 특징이 있습니다.
- 주어진 데이터(표본)를 기반으로 모수의 조건부확률분포를 계산하는 작업입니다.
\begin{align} p(\mu \mid x_{1},\ldots,x_{N}) = \dfrac{p(x_{1},\ldots,x_{N} \mid \mu) \cdot p(\mu)}{p(x_{1},\ldots,x_{N})} \propto p(x_{1},\ldots,x_{N} \mid \mu ) \cdot p(\mu) \end{align}
이 때 모수의 사전 분포인 $p(\mu)$로는 $\text{Beta}(1,1)$ 이나 $ \mathcal{N}(0,\sigma^2) $과 같은 무정보분포를 사용합니다.
그리고 분모에 들어가는 $p(x_1,x_2,\dots,x_N)$의 경우 우리가 관심 있는 모수가 포함되지 않은, 이미 주어진 데이터에 의해 결정되는 값이기 때문에 크게 신경쓰지 않습니다.
- 베이즈 추정법의 장점 중 하나는 순차적 계산이 가능하다는 점입니다. 처음 계산 시에는 사전분포로 무정보분포를 계산하지만 만약 이미 50개의 데이터를 이용해 추정한 후 또 다른 50개의 데이터를 이용한다고 하면 이전에 추정한 사후분포가 새로운 사전분포로 사용되면 되기 때문입니다.
- 베이즈 추정법에서는 모수의 분포에 대한 정보를 제공하게 되기 때문에 모수가 따르는 확률분포의 모수를 알아내야 합니다. 그리고 이러한 모수를 "모수의 모수"라고 하여 "하이퍼 모수"라고 합니다.
예시)
베르누이 분포의 모수 추정
베르누이분포의 모수인 $\mu$는 0에서 1사이의 값이기 때문에 사전분포로는 $\text{Beta}(1,1)$을 이용합니다.
$$ p(\mu) \propto \mu^{a-1}(1-\mu)^{b-1} \;\;\; (a=1, b=1) $$
$$ p(x_{1},\ldots,x_{N} \mid \mu) = \prod_{i=1}^N \mu^{x_i} (1 - \mu)^{1-x_i} $$
$$ \begin{split} \begin{align} \begin{aligned} p(\mu \mid x_{1},\ldots,x_{N}) &\propto p(x_{1},\ldots,x_{N} \mid \mu) p(\mu) \\ &= \prod_{i=1}^N \mu^{x_i} (1 - \mu)^{1-x_i} \cdot \mu^{a-1}(1-\mu)^{b-1} \\ &= \mu^{\sum_{i=1}^N x_i + a-1} (1 - \mu)^{\sum_{i=1}^N (1-x_i) + b-1 } \\ &= \mu^{N_1 + a-1} (1 - \mu)^{N_0 + b-1 } \\ &= \mu^{a'-1} (1 - \mu)^{b'-1} \\ \end{aligned} \end{align} \end{split} $$
이렇게 결과를 보면 원래 사전분포에서의 하이퍼모수는 $a=1, b=1$이었는데 사후분포의 하이퍼모수는 $a' = N_1 + a, b' = N_0 + b $ 가 됩니다.
즉 베르누이분포의 모수를 추정하게 되면 모수의 분포는 $ a' = N_1 + a, b' = N_0 + b$인 베타분포 $\text{Beta}(a',b')$이 되는 것입니다.
카테고리 분포의 모수 추정
카테고리 분포의 모수는 모두 0부터 1사이의 값을 가지고 다 더해서 1이 나와야하므로 사전분포로 하이포모수가 모두 1인 "디리클레분포"를 사용합니다.
이를 이용해 계산하게 되면 사후분포 역시 "디리클레분포"를 따르게 되고 하이퍼모수는 다음과 같아집니다.
$$ \alpha'_{k} = N_k + \alpha_{k}$$
즉 베이즈 추정법에서는
1) 데이터의 특성에 따라 확률변수의 분포 결정
2) 결정된 분포에 의해서 모수의 특징 결정
3) 모수의 특징에 따라 모수가 따르는 확률분포 결정 -> 사전분포로 활용
4) 사후분포는 사전분포와 동일한 확률분포이나 하이퍼모수가 다른 분포
가 됩니다.
'EDUCATION > DSS Online 6기' 카테고리의 다른 글
DAY31 - FTP 서비스 이용하기 (0) | 2021.03.02 |
---|---|
DAY31 - AWS 사용하기 (0) | 2021.03.02 |
DAY30 - 확률분포의 추정2 (0) | 2021.03.02 |
DAY30 - 확률분포의 추정 (0) | 2021.03.02 |
DAY29 - 베타분포, 감마분포, 디리클레분포 (0) | 2021.03.02 |