STUDY_SEONMIN
DAY26 - 다변수 확률변수 본문
다변수확률변수는 두 개 이상의 확률변수가 있는 경우를 의미합니다.
다변수확률변수의 분포를 표현하는 함수로는 결합확률함수, 주변확률함수, 조건부확률함수가 있습니다.
확률변수에는 크게 이산확률변수와 연속확률변수가 있는데 각각에 대한 다변수확률변수의 분포를 나타내는 함수들을 알아보겠습니다.
우선 이산확률변수로 이루어진 다변수확률변수입니다.
결합확률질량함수
- 각각의 확률변수에 대해 사건이 동시에 발생할 확률을 반환해주는 함수입니다.
- 예를들어 "국어성적"과 "수학성적"이라는 확률변수가 있을 경우 $P(\text{국어성적} = A, \text{수학성적} = B)$과 같이 각각의 확률변수에서 발생할 수 있는 사건들의 조합에 대한 확률을 나타냅니다.
$$ P_{XY}( x, y ) $$
어느 대학에서 50명의 학생이 "전공과목", "교양과목"이라고 하는 두 과목에 대해 시험을 보고 그 결과가 다음과 같다고 하겠습니다.
전공 A, 교양 A를 받은 사람이 1명 ... 전공 F, 교양 F를 받은 사람이 1명입니다.
이를 결합확률질량함수로 나타내면 다음과 같습니다.
주변확률질량함수
두 확률변수 중 하나의 확률변수 값에 대해서만 확률분포를 표시한 함수입니다.
즉 단변수 확률변수라고 할 수 있습니다.
$$ P_{X}(x) = \sum_{y_i} P_{XY}(x, y_i) $$
$$ P_{Y}(y) = \sum_{x_i} P_{XY}(x_i, y) $$
위의 성적 예시에서 전공과목과 교양과목에 대한 주변확률질량함수를 구해보면
전공과목 | 주변확률 |
A | 0.04 |
B | 0.22 |
C | 0.36 |
D | 0.26 |
F | 0.12 |
교양과목 | 주변확률 |
A | 0.08 |
B | 0.12 |
C | 0.32 |
D | 0.28 |
E | 0.20 |
조건부확률질량함수
한 확률변수가 고정될 때 나머지 확률변수에 대한 확률질량함수를 의미합니다.
$$ P_{X|Y}(x|y) = \frac{P_{XY}(x,y)}{P_{Y}(y)} $$
교양과목의 성적을 A받은 사람이 전공과목도 A를 받을 확률을 구하게 되면
$$P_{X|Y}(A|A) = \frac{P_{XY}(A,A)}{P_{Y}(A)} \\ = \frac{0.02}{0.08} \\ = 0.25 $$
조건부확률질량함수는 일종의 단면이라고 생각할 수도 있습니다.
결합확률질량함수를 사각형 막대기들이라고 생각하고 각각의 값이 막대기의 높이라고 상상해보면 "교양과목성적이 A"라는 조건을 준다는 것은 교양과목 성적이 A인 막대기들을 잘라내 단면을 보는 것입니다.
하지만 이렇게 잘라놓은 단면은 그 면적의 합이 1이 되지 않습니다.
따라서 이를 스케일링해 1을 만들어주면 그 값이 조건부확률질량함수가 되는 것입니다.
다음은 연속확률변수로 이루어진 다변수확률변수의 분포를 나타내는 함수들에 대해 알아보겠습니다.
결합누적확률분포함수
두 연속 확률변수 $X, Y$에 대한 결합누적확률분포함수 $F_{XY}(x,y) = P({X < x} \cap {Y < y}) = P(X < x, Y < y)$ 로 정의합니다.
단변수 확률변수에서도 그랬듯이 누적확률분포함수를 보더라도 어떤 구간의 확률이 높은지 비교하기가 어렵습니다. 따라서 일반적으로 확률밀도함수를 사용하여 시각화를 하는데 다변수 확률변수에서도 마찬가지입니다.
결합확률밀도함수
결합누적확률분포함수를 각각의 확률변수에 대해 편미분하여 나오는 함수가 결합확률밀도함수입니다.
$$ p_{XY} = \dfrac{\partial^2 F_{XY}(x,y)}{\partial x \partial y} $$
결합확률밀도함수는 Contour plot으로 많이 나타냅니다.
주변확률밀도함수
주변확률밀도함수는 결합확률밀도함수에서 특정한 하나의 확률변수에 대한 확률분포를 나타내는 함수입니다.
따라서 만약 $X$의 확률분포를 나타내고싶다면 $Y$로 적분하고, $Y$의 확률분포를 나타내고 싶다면 $X$로 적분해야합니다.
$$ p_{X}(x) = \inf_{-\infty}^{\infty} p_{XY}(x,y)dy $$
$$ p_{Y}(y) = \inf_{-\infty}^{\infty} p_{XY}(x,y)dx $$
주변확률밀도함수의 모양을 생각할 때는 결합확률밀도함수를 한 방향으로 뭉개뜨리는 것을 상상하면 도움이 됩니다
$X$의 주변확률밀도함수를 구할 때는 $Y$축 방향으로, $Y$의 주변확률밀도함수를 구할 때는 $X$축 방향으로 뭉개뜨리는 것입니다.
조건부확률밀도함수
조건부확률질량함수에 대해 설명할 때 "결합확률질량함수를 잘라낸 단면"을 넓이가 1이 되도록 스케일링한 것이라고 하였습니다.
조건부확률밀도함수도 마찬가지로 "결합확률밀도함수를 잘라낸 단면"을 넓이가 1이 되도록 스케일링 한 것이라고 생각하면 됩니다.
$$ p_{X|Y}(x|y) = \frac{p_{x,y}}{p(y)} $$
$$ p_{Y|X}(y|x) = \frac{p_{y,x}}{p(x)} $$
위 그림을 보면 $p_{X|Y}(x,y = 190)$를 구하는 과정은 결합확률밀도함수에서 $y = 190$일 때의 단면을 먼저 구하고 이를 스케일링하는 과정임을 알 수 있습니다.
독립과 상관
두 확률변수가 있을 때, 한 확률변수의 값이 변함에 따라서 나머지 확률변수의 조건부 분포가 달라지면 서로 상관 관계가 있다고 반대로 조건부 분포가 달라지지 않으면 "독립"이라고 합니다.
결국 어떤 조건을 부여하든 항상 원래의 확률분포를 유지하게 되면 서로 영향을 주지 않는 것이기에 "독립"이 되는 것입니다.
$$ p_{X|Y}(x|y) = \frac{p_{XY}(x,y)}{p_{Y}(y)} = p_{X}(x) $$
$$ p_{Y|X}(y|x) = \frac{p_{XY}(x,y)}{p_{X}(x)} = p_{Y}(y) $$
따라서 수학적으로 정의하게 되면 $ p_{XY}(x,y) = p_{X}(x)p_{Y}(y) $ 일 때 두 확률변수는 서로 독립이라고 합니다.
'EDUCATION > DSS Online 6기' 카테고리의 다른 글
DAY27 - 조건부기대값 (0) | 2021.02.24 |
---|---|
DAY26 - 공분산과 상관계수 (0) | 2021.02.24 |
DAY26 - 확률변수의 분산 (0) | 2021.02.23 |
DAY25 - 기대값, 확률변수의 중앙값, 최빈값 (0) | 2021.02.23 |
DAY25 - 확률변수 (0) | 2021.02.23 |