STUDY_SEONMIN
DAY27 - 조건부기대값 본문
조건부기대값과 예측문제
다변수확률변수의 분포는 결합확률밀도함수로 나타낼 수 있다고 하였습니다.
데이터분석에서 가장 흔히 풀게 되는 문제가 "예측"문제인데 이는 $X$값을 알고 있을 때 $Y$를 예측하는 문제입니다.
위의 그림에서 "$X = 60$일 때 $Y$의 값은 얼마입니까?" 라고 질문을 하게 되면 어떻게 답을 해야할까요?
$X=60$일 때도 $Y$값은 어떠한 분포를 이루고 있기 때문에 이 분포를 대표할만한 값을 답으로 주어야할 것입니다.
어떤 분포를 대표하는 값으로는 기대값을 가장 많이 사용하기 때문에 여기서도 그 답은 기대값이 될 것입니다.
즉 예측문제에서 예측의 결과로서 내어주는 값은 $ E[Y|X=x] $이 되는 것입니다.
이러한 값을 "조건부기대값"이라고 하고 이는 조건부확률밀도함수를 이용하여 계산할 수 있습니다.
$$ E_{Y}[Y|X] = \int_{y=-\infty}^{y=\infty} y p_{Y|X}(y|x) dy $$
조건부기대값의 성질
조건부기대값은 $X$의 값에 따라서 달라지므로 $X$에 대한 함수입니다.
즉 $E[Y|X] = f(X)$ 이므로 확률변수의 변환에 해당하여 $E[Y|X]$도 "확률변수"가 됩니다.
만약 $Y$와 $X$가 완벽한 상관관계를 이루어 $Y = g(X)$로 표현할 수 있다면 $X$값을 결정한 순간 $Y$는 확률분포를 이루는 확률변수가 아니라 특정한 상수로 고정되게 되는데 그럴 때는 $E[Y|X] = g(X)$가 되어 완벽한 예측을 할 수 있게 됩니다.
전체 기대값의 법칙
앞서 조건부기대값은 "확률변수"라고 하였습니다. 따라서 조건부기대값에 대해서도 기대값을 구할 수 있는데 그 값은 원래 확률변수의 기대값과 같아집니다.
$$ E_{X}[E_{Y}[Y|X]] = E_{Y}[Y] $$
이산확률변수의 경우에는 위 식을 간단하게 증명할 수 있습니다.
$$ E_{X}[E_{Y}[Y|X]] = \sum_{x_i \in X} p(x_i)E_{Y}[Y|X] \\ = \sum_{x_i \in X} \sum_{y_j \in Y} p(y_j|x_i)y_j \\ = \sum_{x_i \in X} \sum_{y_j \in Y} p(x_i)p(y_j|x_i)y_j \\ = \sum_{x_i \in X} \sum_{y_j \in Y} p(x_i,y_j)y_j $$
전체확률의 법칙에 의해서 $ \sum_{x_i \in X} p(x_i,y_j) = p(y_j) $ 이므로
$$ \sum_{x_i \in X} \sum_{y_j \in Y} p(x_i,y_j)y_j = \sum_{y_j \in Y} p(y_j)y_j \\ = E_{Y}[Y] $$
전체분산의 법칙
$$ Var[Y] = E[Var[Y|X]] + Var[E[Y|X]] $$
전체분산의 법칙은 전체 기대값의 법칙을 활용해 증명할 수 있다.
$$ Var[Y] = E[Y^2] - (E[Y])^2 \\ = E[E[Y^2|X]] - (E[E[Y|X]])^2 \\ = E[Var[Y|X] + (E[Y|X])^2] - (E[E[Y|X]])^2 \\ = E[Var[Y|X]] + (E[(E[Y|X])^2] - (E[E[Y|X]])^2) \\ = E[Var[Y|X]] + Var[E[Y|X]] $$
이 때 $E[Var[Y|X]]$ 는 조건부분산의 기대값으로 내가 예측한 결과와 실제 분포가 얼마나 차이가 나는지를 나타내는 값이라고 하여 "편향"이라고 한다.
$Var[E[Y|X]]$는 조건부기대값의 분산으로 예측값들의 변동크기를 나타내며 변동크기가 클수록 예측모형이 복잡하고 보유 중인 데이터에 과적합되었다는 의미입니다.
실제 $Y$의 분산값인 $Var[Y]$는 고정된 값이므로 $E[Var[Y|X]]$가 커지면 $Var[E[Y|X]]$가 줄어들어야 하고 $E[Var[Y|X]]$가 작아지면 $Var[E[Y|X]]$가 커져야하므로 이를 "편향-분산 상충 법칙"이라고 합니다.
해석해보자면 예측 오차 즉 편향을 줄이려고 하면 모델의 복잡도가 커짐과 동시에 데이터에 과적합되고, 과적합을 피하기 위해 모델을 너무 단순하게 만들면 예측 오차가 커진다는 뜻입니다.
'EDUCATION > DSS Online 6기' 카테고리의 다른 글
DAY28 - 카테고리분포와 다항분포 (0) | 2021.02.26 |
---|---|
DAY27 - 베르누이 분포와 이항분포 (0) | 2021.02.26 |
DAY26 - 공분산과 상관계수 (0) | 2021.02.24 |
DAY26 - 다변수 확률변수 (0) | 2021.02.24 |
DAY26 - 확률변수의 분산 (0) | 2021.02.23 |