STUDY_SEONMIN

DAY25 - 확률변수 본문

EDUCATION/DSS Online 6기

DAY25 - 확률변수

Kululu_ 2021. 2. 23. 14:43

확률변수

확률변수는 일종의 데이터 생성기 입니다.

주사위를 던지는 실험에서 1, 2, 3, 4, 5, 6과 같은 숫자가 나오게 하는 것은 주사위 입니다. 실제 주사위를 던지는 실험을 통해 나온 숫자들은 데이터이고 이러한 데이터를 만들어 낸 '주사위'가 존재하는 것입니다.

 

확률변수는 주사위와 같은 역할을 합니다. 확률변수에서 우리가 눈으로 볼 수 있는 데이터가 생성되는 것이고, 그 데이터는 확률변수의 분포에 의해서 생성되는 것입니다.

 

따라서 데이터분석을 할 때에는 현재 수집된 데이터를 만들어내는 "확률변수"가 있다고 생각해야 합니다.

 

확률변수를 이용한 데이터분석

확률변수가 데이터 생성기라는 것을 받아들이게 되면 데이터 분석 시 이러한 생각을 할 수 있습니다.

 

"수집된 데이터들은 우리가 모르는 어떤 확률변수로 부터 만들어진 표본 데이터다"

 

그리고 이러한 생각을 바탕으로 데이터 분석을 진행하게 되면 다음과 같은 순서로 진행됩니다.

 

1. 데이터 수집

2. 수집한 데이터가 어떤 확률변수의 표본 데이터라고 가정

3. 수집한 데이터를 이용해 확률변수의 확률분포함수 모양을 추정

4. 추정된 확률변수로부터 다음에 생성될 데이터나 데이터의 특성을 예측

 

이 과정에서 가장 중요한 것은 3번이며 데이터로부터 확률변수의 확률분포함수를 역설계하는 "reverse-engineering"이라고도 합니다.

 

역설계하는 방법 중 가장 간단한 방법은 표본 데이터의 기술통계값을 이용하는 것입니다.

 

기술통계값들은 데이터의 분포를 나타낸다고 하였는데, 이를 이용해 데이터의 기술통계값과 같은 기술통계값을 갖는 확률변수를 추정하는 것입니다.

'EDUCATION > DSS Online 6기' 카테고리의 다른 글

DAY26 - 확률변수의 분산  (0) 2021.02.23
DAY25 - 기대값, 확률변수의 중앙값, 최빈값  (0) 2021.02.23
DAY25 - 기술통계(2)  (0) 2021.02.23
DAY25 - 다양한 분포  (0) 2021.02.23
DAY24 - 확률적 데이터와 분포  (0) 2021.02.23
Comments