본문 바로가기

Probability

Random Variable

확률을 공부할때 가장 많이 듣는말로 '확률변수'이며, 이번 포스팅에는 확률변수에 대한 내용을 적어보려고 한다.

 

일단 확률변수는 sample space상에서 각 event를 0과 1사이의 숫자로 대응시키는 일종의 함수라고 생각하면 될 것 같다. 

 

확률변수를 직관적으로 이해하기 위해 아래와 같은 예시를 들어보겠다. 

 

두개의 주사위를 던진다고 했을때, 주사위에 나온 숫자들의 조합을 생각해보자.  

 

그러면 발생할 수 있는 사건은 총 36가지이며 이를 나열 하면 다음과 같다. 

 

(첫번째 주사위 수, 두번째 주사위 수) = (1 ,1), (1, 2), (1, 3) .....  (6,5), (6,6) 

 

그리고 위에서 나열 된 사건들의 집합을 sample space 라고 한다. 

아무튼 이러한 상황에서 확률변수 X를 두개의 주사위를 던졌을때 나온 숫자들의 합이라고 했을때, 아래와 같이 확률을 작성할 수 있다.

 

$$\begin{align} &P(X = 1) = P\left\{⌀ \right\} = \frac{0}{36} \ &&P(X = 2) = P\left\{(1,1) \right\} = \frac{1}{36} \\ &P(X = 3) = P\left\{(1,2), (2,1) \right\} = \frac{2}{36} \ &&P(X = 4) = P\left\{(1,3)(2,2),(3,1) \right\} = \frac{1}{36} \\ \\  &&\cdots \\ \\&P(X = 11) = P\left\{(5,6),(6,5) \right\} = \frac{2}{36}\ &&P(X = 12) = P\left\{(6,6) \right\} = \frac{1}{36} \end{align}$$

 

즉, 위에서 정의한 확률변수 X는 정수값 2부터 12까지 값을 가질 수 있으며, 예시처럼 확률변수가 가질 수 있는 값에 대해 확률을 대응시킬 수 있다. 

 

한편, 확률변수 X는 2부터 12값을 가지고 있으며, 확률변수에 대응되는 확률값의 합이 1인지 확인해야 한다.

 

즉 아래와 같은 식이 만족하는 지 확인해야 한다. 

$$ 1 = P \left\{ \underset{i = 2}{\overset{12}{\bigcup}} \left\{ X = n \right\} \right\} = \sum_{n=2}^\text{12} P\left\{X=n \right\} $$

 

또 다른 예시를 생각해보자. 

 

동전을 던졌을때 동전의 앞면이 나올 확률이 p이며, 앞면이 첫번째 나올때까지 던진다고 해보자. 

 

이때 확률변수 N을 동전의 앞면이 첫번째로 나올때까지 던진 횟수라고 정의해보자. (각 동전을 던졌을때 나오는 결과는 서로 독립이라고 가정)

 

확률변수 N은 1, 2, 3, ... 의 값을 가질 수 있다. 즉 자연수 1 이상의 값을 갖는다. 그리고 확률변수 값에 대해 각 확률은 아래와 같다. 

 

$$ \begin{align} P\left\{ N=1 \right\} =\;  &P\left\{\text{앞면} \right\} = p \\ P\left\{ N=2 \right\} = \;  &P\left\{\text{뒷면, 앞면} \right\} = (1-p)p  \\ P\left\{ N=3 \right\} = \; &P\left\{\text{뒷면, 뒷면, 앞면} \right\} = (1-p)^2 p  \\ & \quad \quad \text{・ ・ ・} \\ P\left\{ N=n \right\} = \; &P\left\{\text{뒷면, 뒷면, 뒷면, ・ ・ ・ ,  앞면} \right\} = (1-p)^n-1 p  \end{align}$$

 

그리고 마찬가지로 각 확률변수가 갖는 확률값의 합이 1인지 확인해보자. 

 

$$ \begin{align} P \left\{ \underset{i = 1}{\overset{ \infty}{\bigcup}} \left\{ N = n \right\} \right\}  &= \sum_{n=1}^\infty P\left\{N=n \right\}  \\ &= p \sum_{n=1}^\infty (1-p)^{n-1} \\ &= \frac{p}{1-(1-p)} \\ &= \; 1 \end{align} $$

 

지금까지 설명한 확률변수는 discrete한 확률변수로, 확률변수가 가질 수 있는 값이 셀수 있거나 유한한 값을 취하는 경우를 말한다. 

하지만 이러한 discrete한 확률변수 이외에도,  continuous한 확률변수도 존재한다.(예, 자동차의 수명)

 

이제 Cumulative distribution function(cdf), 즉 누적분포함수에 대해 알아보자. 

 

확률변수 X의 누적분포함수 $F \left( \cdot \right)$는 어떤 임의의 실수 b에 대해 아래와 같이 정의 된다. 

$$F(b) = P \left\{ X \leq b \right\} $$

 

즉, 누적분포함수는 확률변수 X가 어떤 임의의 실수 b보다 작은 값을 취할때의 확률을 의미하며 CDF는 아래와 같은 성질을 가진다. 

$$ \begin{align} &(1) \; F(b) \; \text{is a nondecreasing function of b} \\ \\ &(2) \lim_{b \to \infty} F(b) \; = \; F(\infty) = 1 \\ \\ &(3) \lim_{b \to - \infty} F(b) \; = \; F(- \infty) = 1\end{align} $$

 

확률변수 X에 대한 모든 질문은 누적분포함수로 해결되기 때문에, 누적분포함수는 확률에 있어서 매우 중요하다. 

 

누적분포함수에 대해서는 다음 포스팅에 자세히 작성하도록 하겠다.