이 글은 유튜브에 업로드된 강의 김성범[소장 / 인공지능 공학 연구소]핵심 확률/통계를 보고 작성했다.
Chapter 05 Countinuous Probability Distribution
이전 챕터.
- 확률 변수는 표본 공간의 원소들을 실수로 대응시키는 함수이다.
- 실수의 종류에 따라 이산형 / 연속형으로 나뉜다.
- 이산형확률변수 → p.m.f 확률질량함수
- 연속형확률변수 → p.d.f 확률밀도함수
연속형확률변수
- 이전에 공부한 이산형과 다른 점은 실수들의 합을 구할 때 integral을 사용한다.
- 셀 수 없는 값을 가진다.
$$(0,1)=\{x\in \mathbb{R} | 0<x<1\}$$
$$[0,1]=\{x\in \mathbb{R} | 0\leq x\leq 1\}$$
$$(0,1)=\{x\in \mathbb{R} | 0\leq x<1\}$$
$$(-\infty, \infty)=\text{all real number}$$
- 예시 : 돈, 몸무게, 키 ⋯
확률밀도함수[Probability Density Function]
연속형확률변수로 나온 실수들 $x$가 함수에 들어가 확률로 변환된다. 여기서 확률들의 패턴이 연속형확률분포가 된다.
- 확률질량함수가 주어졌을 때, 다음식을 만족한다.
$$P(a\leq X \leq b) = \sum_{a\leq x \leq b}P(X=x)$$
- 확률밀도함수 즉 연속형일 때는 다음과 같다.
$$P(a\leq X\leq b) = \int_a^b f(x)\mathrm{d}x$$
확률밀도함수에서 확률을 구할 때는 곡선아래의 면적[area under the curve]을 구한다.
$$P[a\leq X \leq b] = \int_a^b f(x)\mathrm{d}x$$
확률밀도함수 특징
- $f(x) \geq 0, $\forall x
- $P(X\in (-\infty, \infty))=\int_{-\infty}^{\infty}f(x)\mathrm{d}x=1$
- $P(X=a)=P[a\leq X\leq a]=\int_a^a f(x)\mathrm{d}x=0$
- 연속형확률분포에서 특정한 한 순간의 확률은 0이다.
- $P\left(a-\frac{\varepsilon}{2}\leq X\leq a+\frac{\varepsilon}{2}\right)=\int_{a-\frac{\varepsilon}{2}}^{a+\frac{\varepsilon}{2}}f(x)\mathrm{d}x\approx \varepsilon f(a)$
- $f(a)$는 확률변수 $x$가 $a$근처에서 얼마나 발생하는지 나타내는 측도이다.
- $P(a\leq X \leq b)=P(a\leq X < b)=P(a< X \leq b)=P(a< X < b)$
확률밀도함수 예제
컴퓨터가 고장 나기 전까지 시간
$$f(x)=\begin{cases}\lambda e^{\frac{-x}{100}},& \quad x\geq 0\\0,& \quad x<0\end{cases}$$
- 여기서 $\lambda$값을 구하시오.
- 모든 확률들의 합은 1인 점을 이용하여 구한다.
$$\begin{align}1&=\int_{0}^{\infty}\lambda e^{\frac{-x}{100}}\mathrm{d}x\\ &=\lambda[-100e^{\frac{-x}{100}}]_0^\infty \\ &= -100\lambda[0-1]\\ &= 100\lambda\end{align}$$
$$\therefore \lambda=\frac{1}{100}$$
- 컴퓨터가 50~150시간 작동할 확률
- $f(x)=\begin{cases}\frac{1}{100}e^{\frac{-x}{100}},& \quad x\geq 0\\0,& \quad x<0\end{cases}$를 알고 있다.
$$\begin{align}P(50<X<150) &= \int_{50}^{150}\frac{1}{100}e^{-\frac{x}{100}}\mathrm{d}x\\ &= \frac{1}{100}[-100e^{-\frac{x}{100}}]^{150}_{50}\\&= -e^{-\frac{150}{100}}-(-e^{-\frac{50}{100}})\\&=e^{-1/2}-e^{-3/2}\approx 0.384\end{align}$$
누적분포함수[Cumulative Density Function]
누적분포함수는 $F(x)$로 표기한다. 확률변수가 특정한 값보다 작을 확률로 정의한다.
즉 특정값 이전 확률들을 누적시킨 값이다.
$$F(x)=P[X\leq x]=\int_{-\infty}^x f(t)\mathrm{d}t$$
- cdf [누적분포함수]와 pdf [확률밀도함수]의 관계
- pdf는 cdf를 미분한 값이다.
$$\frac{\mathrm{d}}{\mathrm{d}x}F(x)=f(x)$$
- $0\leq F(x)\leq 1, \forall x$
- If $b\geq a,$then $F(b)\geq F(a)$
- 즉, x가 커질수록 값도 커진다. 누적이기 때문에
- $F(b)-F(a)=P[a\leq X\leq b]$
Example)
$X$=라디오 부품의 수명
$f(x)=\frac{100}{x^2}$ for $x>100$; o/w $f(x)=0$
$$\begin{align}F(150)=P[X<150]&=\int_{-\infty}^{150}f(x)\mathrm{d}x\\&=100\int_{100}^{150}x^{-2}\mathrm{d}x+0\\&=100\left[-\frac{1}{x}\right]_{100}^{150}\\&=\frac{1}{3}\end{align}$$
이를 pdf를 이용하여 구하면
$$F(x)=P[X < x]=\int_{100}^x\frac{100}{x^2}\mathrm{d}x=\left[-\frac{100}{x}\right]_0^x=-\frac{100}{x}+1$$
$$\therefore F(150)=-\frac{100}{150}+1=\frac{1}{3}$$
연속형확률변수의 기댓값
확률변수 $X$와 pdf $f(x)$가 주어진다.
$$E[X]=\int xf(x)\mathrm{d}x$$
Example)
다음과 같이 pdf가 주어질 때,
$$f(x)=\begin{cases}2x,& \quad \text{if } 0\leq x\leq 1\\0,& \quad o.w\end{cases}$$
$$E[X]=\int_0^1xf(x)\mathrm{d}x=\int_0^1 x\cdot 2x\mathrm{d}x=\int_0^1 2x^2\mathrm{d}x=\left[\frac{2}{3}x^3\right]_0^1=\frac{2}{3}$$
확률변수$X$에 대한 함수 $g(X)$에 대한 기댓값
$$E[g(X)]=\int_{-\infty}^{\infty}g(x)f(x)\mathrm{d}x$$
Example)
$g(X)=e^X$일 때 $E[g(X)]$를 구하라.
$$f(x)=\begin{cases}1,& \quad \text{if } 0\leq x\leq 1\\0,& \quad o.w\end{cases}$$
$$E[e^x]=\int_0^1 e^xf(x)\mathrm{d}x=\int_0^1 e^x\mathrm{d}x=[e^x]^1_0=e-1$$
Example)
길이가 1인 막대를 $u$에서 분리할 것이다. $0\leq u \leq 1$
여기서 $p$포인트가 포함되어 있는 막대의 길이. $0\leq p \leq 1$
$$L_p(u)=\begin{cases}1-u,& \quad u<p\\u,& \quad u>p\end{cases}$$
$p$는 정해진 값이고 확률 변수 $u$가 주어질 때 $u<p$일 때, 값은 $1-u$이다. 그리고 $u>p$일 때, $u$가 되는 것이다.
$$\begin{align}E[L_p(u)]&=\int_0^p 1(1-u)\mathrm{d}u+\int_p^1 1(u)\mathrm{d}u\\&=[u-\frac{1}{2}u^2]_0^p+[\frac{1}{2}u^2]_p^1\\&=p-\frac{1}{2}p^2+\frac{1}{2}-\frac{1}{2}p^2\\&=\frac{1}{2}-p^2+p\end{align}$$
연속형확률변수의 분산
기댓값을 기준으로 데이터들이 얼마만큼 떨어져 있는가
$$V[X]=E[(X-\mu)^2]$$
$$V[X]=E[X^2]-(E[X])^2$$
Example)
확률변수 $X$가 주어지고
$$f(x)=\begin{cases}2x,& \quad \text{if } 0\leq x\leq 1\\0,& \quad o.w\end{cases}$$
$$E[X^2]=\int_{-\infty}^{\infty}x^2f(x)\mathrm{d}x=\int_0^1 2x^3\mathrm{d}x=\left[\frac{x^4}{2}\right]_0^1=\frac{1}{2}$$
$$\begin{align}V[X]&=E[X^2]-(E[X])^2\\&=\frac{1}{2}-\left(\frac{2}{3}\right)^2=\frac{1}{18}\end{align}$$