🖥️ 컴퓨터 싸이언스

확률 | 확률의 다양한 개념들을 간단하게 살펴보자!

노바깅 2023. 5. 15. 01:49

확률과 관련한 이런 저런 개념들을 공부하고 정리하며 쓰는 글!

생각의 흐름과 찾아본 내용을 토대로 쓸 것이라 상당히 두서 없는 글이 될 듯.

 


 

신뢰구간

  • 신뢰구간은 주어진 '표본'을 사용하여 구한 구간 안에 실제 '모집단'의 특성치 (여기선 모평균)가 포함될 가능성이 1-$\alpha$ 임을 의미한다.
  • 즉, 신뢰 수준 95%라는 의미는 n개의 표본을 사용하여 신뢰구간을 구하는 과정을 100번 반복했을 때 그 중 95개의 구간이 실제 모수를 포함한다는 의미이다.
  • 모수는 모집단의 파라미터라고 생각하면 된다. (모집단의 평균, 표준 편차 등) - 여기서는 모집단의 평균
출처: https://www.youtube.com/watch?v=1WSTBVFeQ-4 해당 영상

 위의 그림에서 $\bar{X}_1, \bar{X}_2, \bar{X}_k$는 각 표본을 사용하여 구한 구간 안에 실제 모집단의 특성치가 포함되어 있는 경우를 의미한다. 

 신뢰구간을 구하는 이유는 모집단의 평균을 추정하기 위함인데, 신뢰도가 만약 너무 높다면 무의미한 추정이 될 수 있다. (신뢰도가 높을 수록 구간이 넓어지니까!)

 

p-value, 검정력

 p-value는 귀무가설을 가정했을 때 주어진 자료가 발생할 확률을 말하며 1종 오류를 범할 확률이라고 볼 수도 있다. 검정력은 대립가설이 사실일 때 이를 사실로 결정할 확률을 의미한다. 즉, 검정력이 좋아지게 되면 2종 오류를 범할 확률이 작아진다.

  • 귀무가설아무 일도 일어나지 않았음을 가정하는 가설을 의미하고 (~는 효과가 없다. ~와 차이가 없다.)
  • 대립가설은 귀무가설이 거짓이라면 대안적으로 참이 되는 가설을 의미한다. (~는 효과가 있다. ~와 차이가 있다.)
  • 1종 오류는 "귀무가설이 참인데 잘못 판단해 기각해버리는 오류"를 의미하고
  • 2종 오류는 "귀무가설이 거짓인데 기각하지 않아서 생기는 오류"를 의미한다.

 1종 오류는 예를 들어 불이 나지 않았는데 화재 경보가 울리는 오류라고 볼 수 있고, 2종 오류는 불이 났는데도 화재 경보가 울리지 않는 오류라고 볼 수 있다.

 

 

유의 수준과 유의 확률 (p-value)

 위에서 언급했듯이 유의 확률은 귀무가설을 가정했을 때 주어진 자료가 발생할 확률을 의미한다. 유의 수준은 1종 오류를 범할 확률에 대한 최대 허용 한계값을 의미하는데 다른 말로 "1종 오류는 이 정도까지만 허용해줄 수 있어!" 라고 하는 것이다. (귀무 가설 하에서 관측값이 기각역에 속할 확률 α을 의미 - 기각역은 귀무가설을 기각하는 구간으로, 기각역의 넓이는 α가 된다.)

  • ɑ < p-value
    • 1종 오류를 범할 확률 보다 p-value가 크다.
    • 1종 오류를 범할 확률보다 H0일 때 현재 관측값들이 발생할 확률이 크다.
    • H0이 참인데 기각하는 오류가 발생할 확률보다 보다 H0일 때 현재 관측값들이 발생활 확률이 크다.
    • => 귀무가설을 기각하지 않음
  • ɑ > p-value
    • 1종 오류를 범할 확률보다 p-value가 작다.
    • 1종 오류를 범할 확률보다 H0일 때 현재 관측값들이 발생할 확률이 작다.
    • H0이 참인데 기각하는 오류가 발생할 확률보다 H0일 때 현재 관측값들이 발생할 확률이 작다.
    • => 귀무가설을 기각

 

PMF, PDF, CMF, CDF

  • PMF (Probability Mass Function): 이산형 확률변수의 분포를 나타낸다.
  • PDF (Probability Density Function): 연속형 확률변수의 분포를 나타낸다.
  • CMF (Cumulative Mass Function): 이산형 분포에서 주어진 확률 변수가 특정 값 이하인 확률을 나타낸다.
  • CDF (Cumulative Density Function): 연속형 분포에서 주어진 확률 변수가 특정 값 이하인 확률을 나타낸다.

 

베르누이 분포와 이항 분포

 베르누이 분포는 x=1이 발생할 확률이 p, x=1이 발생하지 않을 확률이 1-p인 분포를 의미한다. 즉, 시행의 결과가 2가지 밖에 없는 경우! 예를 들어 동전을 한 번 던져서 앞면이 나올 확률에 대한 분포는 베르누이 분포를 따른다고 할 수 있다. 베르누이 분포는 다음과 같다.

$$Bern(x; \mu) = \mu^x (1-\mu)^{1-x}$$

그런 베르누이 분포를 따르는 베르누이 시행을 여러 번 했을 때, x=1이 발생하는 횟수에 대한 분포가 이항 분포라고 볼 수 있다.

 예를 들어 동전을 한 번 던졌을 때 앞면이 나올 확률이 p이고 뒷면이 나올 확률이 1-p인 베르누이 분포를 따른다고 할 때, 이 베르누이 시행을 N번 반복했을 때 N번 중 성공한 횟수 (여기서는 앞면을 성공이라고 하자) X가 따르는 분포를 이항분포라고 할 수 있다! 즉, 이항 분포는 N번 던졌을 때 X번 성공할 (앞면이 나올) 확률을 의미한다.

 아래 수식에서 $\mu$가 p라고 보면 된다.

$$B(x; N, \mu) = {N \choose x} \mu^x (1-\mu)^{N-x}$$

 

포아송 분포

 포아송 분포는 특정 시간 내에 어떤 사건이 몇 번 발생할 것인지를 나타내는 확률 분포이다. 어떤 사건이 특정 시간 내에 발생할 횟수의 기댓값이 $\lambda$이고, 그 사건이 n번 발생할 확률은 아래와 같다.

$$p(n;\lambda) = \frac{\lambda^n e^{\lambda}}{n!}$$

 이항 분포를 이용해서 기댓값은 쉽게 구할 수 있지만, 이항분포에서 N이 엄청 커지는 경우 분포를 구하기는 쉽지 않다... 포아송 분포는 이를 해결할 수 있따!

 

중심극한정리

출처 https://drhongdatanote.tistory.com/57

 

 모집단에서 샘플링한 표본의 평균을 계속 내면 (표본의 크기가 충분히 클 때), 그 평균의 분포는 실제 분포 (모집단의 분포) 와는 상관없이 정규분포에 근사하게 된다. 즉, 표본의 평균들의 평균의 분포가 정규분포를 따른다는 의미이다.

 즉, 모집단을 모르더라고 표본평균의 분포가 모수를 기반으로 하는 분포를 따르기 때문에 모집단의 파라미터를 어느정도 추정할 수 있다.

 

조건부 확률

출처 https://plaid-raja-512.notion.site/f9a42977a14943bf8915b024f07c795a

 

Probability vs. Likelihood

 위의 조건부 확률에서 가능도 (likelihood) 가 등장했는데, 그렇다면 확률과 가능도의 차이는 무엇일까?

  • 확률 (probability)은 어떤 시행에서 특정 결과가 나올 가능성. 즉, 시행 전에 모든 경우의 수의 가능성은 정해져 있으며 그 총합이 1이다. 즉, 주어진 확률분포에서 해당 관측값이 나올 확률을 의미한다.
  • 가능도 (likelihood)는 어떤 시행을 충분히 수행한 뒤, 그 결과를 토대로 경우의 수의 가능성을 도출하는 것이다. 즉, 주어진 관측값에서 이것이 해당 확률분포에서 나왔을 확률을 의미한다.

 예를 들어서, 동전 던지기를 한다고 했을 때 일반적으로 앞면이 나올 확률은 0.5, 뒷면이 나올 확률은 0.5라고 생각한다. 그렇다면 동전을 100번 던졌을 때, 70번 앞면이 나왔다고 가정하자. 이 때 likelihood는 전체 100번의 시행 중 앞면이 70번, 뒷면이 30번 관측된 이 표본이 어떤 확률분포에서 나왔을까와 관련된 값이다. 즉, 가능도는 어떤 값이 관측되었을 때, 어떤 확률분포에서 왔을지에 대한 확률이다.

 이를 최대우도(가능도)추정을 통해서 풀면 앞면이 나올 확률이 0.7이 된다. 최대우도추정이란, 관측값이 관측될 가능성이 가장 큰 확률분포를 찾는 것을 의미한다.

 

https://youtu.be/XepXtl9YKwc

 

공분산과 상관계수

 공분산은 확률변수 X의 편차와 확률변수 Y의 편차를 곱한 것의 평균값이고, 상관계수는 공분산을 각 확률변수의 분산으로 나누어준 것이다.

$$Cov(X, Y) = E((X-\mu_X)(Y-\mu_Y))$$

$$\rho = \frac{Cov(X, Y)}{\sqrt{(Var(X) \cdot Var(Y)}}, \; -1 ≤ \rho ≤ 1$$

 

 공분산이 양수이면 X가 증가 할 때 Y도 증가하고, 공분산이 음수이면 X가 증가할 때 Y는 감소한다. 또한, 두 변수가 독립적인 관계라면 Cov(X, Y) = 0이 되지만, 역으로 Cov(X, Y)=0이라고 두 변수가 독립이라고 할 수는 없다. 이 때 공분산의 크기는 상관관계의 정도와 상관이 없다. 즉, 공분산을 통해서는 양의 상관관계가 있는지 음의 상관관계가 있는지만 알 수 있다.

 하지만, 상관계수는 공분산을 각 확률 변수의 분산으로 나누어주었기 때문에 (공분산을 단위화 시킨 것이기 때문에) 상관계수의 절댓값이 클 수록 상관관계가 크다는 것을 알 수 있다. 0에 가깝다면 상관 정도가 매우 낮다는 것!

 

모수적 방법과 비모수적 방법

  • 모수적 방법:
    • 정규성을 갖는다는 모수적 특성을 이용하는 통계적 방법을 뜻한다.
    • 입력 데이터의 분포를 가정하는 것을 의미한다.
  • 비모수적 방법:
    • 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나, 표본의 수가 적어 정규분포를 가정할 수 없는경우, 모집단에 대한 아무런 정보가 없는 경우 등에 해당할 때 적용하는 통계적 방법이다.
    • 입력 데이터의 분포를 가정하지 않음을 의미한다.
    • 만약 모수적 방법에서 가정했던 분포가 적합하지 않은 경우 입력 데이터의 특성을 잘 파악하지 못한 것이므로 비모수적 방법을 사용한다고 한다.

 

Bootstrap

 bootstrap은 가설검증을 하거나 통계량을 계산하기 전에 random sampling을 적용하는 방법이다. 모집단에서 표본을 추출하고, 추출한 표본에서 추가적으로 표본을 복원추출해서 각 표본에 대한 통계량을 다시 계산한다.

 

로그 함수를 취하는 이유

  • 단위가 너무 큰 값들을 바로 회귀분석하면, 결과를 왜곡할 우려가 있으므로 이를 방지하기 위해
    • 데이터의 왜도와 첨도를 줄일 수 있어 정규성이 높아진다. 왜도는 분포의 비대칭 정도, 첨도는 분포가 얼마나 뾰족한지 완만한지~
  • 독립변수와 종속변수의 변화관계에서 절대량이 아닌 비율을 확인하기 위해
  • 비선형 관계의 데이터를 선형으로 만들기 위해 ($e^x$ 같은~)