STUDY_SEONMIN

DAY25 - 다양한 분포 본문

EDUCATION/DSS Online 6기

DAY25 - 다양한 분포

Kululu_ 2021. 2. 23. 13:36

단봉분포와 다봉분포

데이터의 분포를 시각화 했을 때 그 모양에서 봉우리가 하나면 단봉분포 봉우리가 여러 개면 다봉분포라고 합니다.

사이킷런 패키지에 있는 iris 데이터셋을 통해 단봉분포와 다봉분포를 살펴보겠습니다.

 

꽃잎의 길이라고 하는 데이터의 분포는 단봉분포인 것을 알 수 있습니다.

 

그에 반해 꽃받침의 길이라고 하는 데이터는 봉우리가 여러 개인 다봉분포인 것을 알 수 있습니다.

 

대칭분포

이름 그대로 분포의 모양이 좌우 대칭인 분포를 의미하며, 대칭분포일 경우에는 다음과 같은 특징들이 있습니다.

- 분포가 "표본평균"을 기준으로 대칭일 때는 표본중앙값 = 표본평균 이다.

- 분포가 대칭분포이면서 "단봉분포"이면 표본최빈값 = 표본평균 이다.

- 대칭분포를 비대칭으로 만드는 데이터가 더해지면 표본평균(영향 크게 받음) -> 표본중앙값 -> 표본최빈값(영향 적게 받음) 순으로 영향을 많이 받는다.

 

 

'EDUCATION > DSS Online 6기' 카테고리의 다른 글

DAY25 - 확률변수  (0) 2021.02.23
DAY25 - 기술통계(2)  (0) 2021.02.23
DAY24 - 확률적 데이터와 분포  (0) 2021.02.23
DAY24 - 베이즈정리  (0) 2021.02.22
DAY24 - pgmpy 패키지를 이용한 확률문제 계산  (0) 2021.02.22
Comments