STUDY_SEONMIN
DAY25 - 다양한 분포 본문
단봉분포와 다봉분포
데이터의 분포를 시각화 했을 때 그 모양에서 봉우리가 하나면 단봉분포 봉우리가 여러 개면 다봉분포라고 합니다.
사이킷런 패키지에 있는 iris 데이터셋을 통해 단봉분포와 다봉분포를 살펴보겠습니다.
꽃잎의 길이라고 하는 데이터의 분포는 단봉분포인 것을 알 수 있습니다.
그에 반해 꽃받침의 길이라고 하는 데이터는 봉우리가 여러 개인 다봉분포인 것을 알 수 있습니다.
대칭분포
이름 그대로 분포의 모양이 좌우 대칭인 분포를 의미하며, 대칭분포일 경우에는 다음과 같은 특징들이 있습니다.
- 분포가 "표본평균"을 기준으로 대칭일 때는 표본중앙값 = 표본평균 이다.
- 분포가 대칭분포이면서 "단봉분포"이면 표본최빈값 = 표본평균 이다.
- 대칭분포를 비대칭으로 만드는 데이터가 더해지면 표본평균(영향 크게 받음) -> 표본중앙값 -> 표본최빈값(영향 적게 받음) 순으로 영향을 많이 받는다.
'EDUCATION > DSS Online 6기' 카테고리의 다른 글
DAY25 - 확률변수 (0) | 2021.02.23 |
---|---|
DAY25 - 기술통계(2) (0) | 2021.02.23 |
DAY24 - 확률적 데이터와 분포 (0) | 2021.02.23 |
DAY24 - 베이즈정리 (0) | 2021.02.22 |
DAY24 - pgmpy 패키지를 이용한 확률문제 계산 (0) | 2021.02.22 |
Comments