STUDY_SEONMIN
DAY37 - 엔트로피 본문
엔트로피
- 엔트로피는 확률분포가 가지는 정보량을 수치로 표현한 것입니다.
- 엔트로피가 클수록 확률분포로부터 얻어낼 수 있는 정보가 적다는 의미이고, 엔트로피가 작을수록 확실한 정보를 얻어낼 수 있다는 의미입니다.
- 보통 범주형 확률변수의 확률분포가 갖는 정보량을 나타낼 때 주로 사용합니다.
$$ H[Y] = - \sum_{k=1}^K p(y_k)log_2 p(y_k) $$
$$ \text{p는 확률질량함수} $$
- 연속형 확률변수에 대해서도 엔트로피 값을 계산할 수는 있습니다.
$$ H[Y] = -\int_{-\infty}^{\infty} p(y) \log_2 p(y) \; dy $$
$$ \text{p는 확률밀도함수} $$
- 범주형 확률변수의 분포에서는 범주들이 나올 확률이 골고루 퍼져있으면 엔트로피가 커지고, 하나의 범주에 확률이 쏠려있으면 엔트로피가 작아집니다.
- 범주형에서 엔트로피는 최소 0에서 최대 K까지의 값을 갖습니다.
$$ 0 \le H[Y] \le K $$
- 나중에 분류문제에서 decision tree를 이용할 때 활용하게 되는 개념입니다.
- 모수를 알고 있는 확률분포 중 정규분포가 가장 엔트로피가 큰 확률분포가 되는데, 이러한 이유로 베이즈 추정법에서 정규분포를 무정보 사전확률분포로 사용하는 경우가 많습니다.
- scipy.stats의 entropy 로 범주형 확률변수의 분포에 대한 엔트로피를 계산할 수 있습니다.
지니불순도
- 엔트로피와 유사한 개념으로 로그를 사용하지 않아 계산량이 더 적어 엔트로피 대용으로 많이 사용됩니다.
$$ G[Y] = \sum_{i=1}^K P(y_k)(1 - P(y_k)) $$
'EDUCATION > DSS Online 6기' 카테고리의 다른 글
DAY38 - 교차엔트로피, 쿨백 라이블러 발산 (0) | 2021.03.08 |
---|---|
DAY37 - 조건부엔트로피 (0) | 2021.03.08 |
DAY37 - 등분산검정, 정규성검정 (0) | 2021.03.08 |
DAY37 - 카이제곱 독립검정, 단일표본 검정, 독립표본 검정, 대응표본 검정 (0) | 2021.03.08 |
DAY36 - 이항검정, 카이제곱검정 (0) | 2021.03.07 |