728x90
반응형

\

 

 

 

 

 

 

 

 

 

 

 

 

아래 내용 출처: https://velog.io/@ljs7463/%EA%B8%B0%EC%B4%88%ED%86%B5%EA%B3%84-21-%ED%86%B5%EA%B3%84%EC%A0%81-%EC%9C%A0%EC%9D%98%EC%84%B1%EA%B3%BC-p%EA%B0%92

 

 

통계적 유의성: 

실험결과가 유연히 일어난 것인지 아니면 유연히 일어날 수 없는 극단적인 것인지를 판단하는 방법

결과가 우연히 일어날 수 있는 변동성 범위 밖에 존재한다면, 통계적으로 유의하다. 

 

 용어정리

  • P값 (P-value) : 귀무가설을 구체화한 기회 모델이 주어졌을 때 관측된 결과와 같이 특이하거나 극단적인 결과를 얻을 확률(우연히 일어날 확률)
  • 알파 (alpha) : 실제 결과가 통계적으로 의미 있는 것으로 간주되기 위해, 우연에 의한 결과가 능가해야 하는 '비정상적인' 가능성의 임계확률
  • 제 1종 오류 : 우연에 의한 효과를 실제 효과로 잘못 결론 내리는 것.
  • 제 2종 오류 : 실제 효과를 우연에 의한 효과로 잘못 결론 내리는 것.

 p값

  • 그래프를 눈으로 보는 것보다 p값과 같은 통계적 유의성을 정확히 측정하기 위한 지표가 필요하다.
  • 이는 확률모형이 관측되는 결과보다 더 극단적인 결과를 생성하는 빈도라고 할 수 있다.
  • "어떤 사건이 우연히 발생할 확률" = "우연히 발생했으니 비교대상은 서로 차이가 없다" = "귀무가설이 기각되지 않을 확률"

 유의수준

  • 우연히 얻은(귀무가설) 결과의 5%보다 더 극단적인 결과와 같이 어떤 임계값(5%)을 미리 지정하는 것을 선호한다.
  • 이 임계값을 보통 유의수준(알파, alpha)라고 한다.
  • 많이 사용되는 유의수준은 5%와 1%이다.
  • 많이사용되는 유의수준이라는 문장만 보아도 이 값이 임의로 선택된다는 것을 알 수있다.
  • 따라서 올바른 x%를 보장하는 프로세스는 없다. 즉, 확률문제가 '우연히 일어날 확률은 무엇인가?'가 아니라 '랜덤한 모델이 주어졌을때, 극단적인 결과가 나올 확률은 어느정도인가?' 이기 때문이다.

 p값에 대한 논란들

  • p값을 너무 확대해석하고 온갖 검정들을 p값으로 정하는 경우가 많다.
  • 하지만, 우리가 p값을 통해 실제로 전달하고자 하는것은 결과가 우연에서 비롯될 확률이다.
  • 우리는 더 낮은 p값을 원하고 뭔가를 증명했다고 결론을 내리기 원하지만 그저 랜덤한 모델이 주어졌을때, 그 결과가 관찰된 결과보다 더 극단적일 확률 정도이다.
  • p값이 유의미하다고 해서 증거가 되지는 않고 통계적으로 유의미하다는 결론에 대한 논리적인 근거로서는 약하다고 볼 수 있다.

 미국통계협회의 p값에대한 6가지 원칙

  • p값은 이 데이터가 특정 통계 모델과 얼마나 상반되는지 나타낼 수 있다.
  • p값은 연구 가설이 사실일 확률이나, 데이터가 랜덤하게 생성되었을 확률을 측정하는 것은 아니다.
  • 과학적 결론, 비즈니스나 정책 결정은 p값이 특정 임계값을 통과하는지 여부를 기준으로 해서는 안된다.
  • 적절한 추록을 위해서는 완전한 보고서와 투명성이 요구된다.
  • p값 또는 통계적 유의성의 효과는 크기나 결과의 중요성을 의미하지 않는다.
  • p값 그자체는 모델이나 가설에 대한 증거를 측정하기 위한 좋은 지표가 아니다.

 실제로 유의미의 의미

  • 결과가 통계적으로 유의미 하다고 해서 실제적으로 유의미 하다는 뜻은 아니다.
  • 실질적으로 의미가 없는 작은 차이라도 표본이 충분히 클 경우 통계적으로 유의하다는 결과가 나올 수 있다.
  • 표본이 클수록, 작고 의미없는 효과가 우연이라고 볼 수 없을 만큼 충분히 크게 보일 수 있다.

 1종 오류와 2종 오류

  • 1종 오류 : 어떤 효과가 우연히 발생한 것인데, 그것이 사실이라고 잘못 판단하는 경우
  • 2종 오류 : 어떤 효과가 실제로 있는 것인데, 그것이 우연히 발생한 것이라고 잘못 판단하는 경우

실제로 2종 오류는 어떤 오류라기보다는 표본의 크기가 너무 작아서 효과를 알아낼수 없다고 판단하는것과 같다. 즉, 표본이 적을 경우 우연히 일어난 것이라고 착각할 수 있다. p값이 통게적 유의성에 미치지 못하는 경우(예를 들어 5%초과), 실제 의미는 '효과가 아직 입증 되지 않았다'는 뜻이다. 표본크기가 더 클수록 p값이 더 작아진다.

유의성검정(가설검정)의 기본 기능은 우연히 일어난 일을 구분하고 속지 않게 하는것이므로 보통 1종 오류를 최소화 하도록 가설을 설계한다.

 정리

  • 관심있고, 유용한 모델의 결과가 일반적인 랜덤 변이의 범위에 있는지를 알기위해서 사용하는 유용한 측정지표이다
  • 유의성 검정은 무작위 변이의 범위내에 있는지 결정하는 데 사용된다.
  • p값은 귀무가설로 부터 나올 수 있는 결과가 관찰된 결과만큼 극단적으로 나타날 확률다.
  • 유의수준(알파, alpha)는 귀무가설 모델에서 '비정상'이라고 판단할 임계값을 말한다.

 

 

 

 

728x90
반응형
728x90
반응형

베이즈 갱신은 실종된 항공기나 선박의 수색에도 위력을 발휘한다. 

 

비행 기록 장치는 어디에 가라앉았는가? 

2009년 6월 1일 브라질 리우데자네이루를 이륙한 에어프랑스 447편이 프랑스 파리로 향하다가 대서양에 추락하였다. 승무원과 승객 288명이 모두 사망하였는데, 기체 일부는 곧 발견되었지만 비행 기록장치인 블랙박스는 발견되지 않은채 수색은 중단되었다. 

이 블랙박스 장치가 가라앉은 해저의 위치는 다음해의 재수색에서 드디어 특정되었다. 이 재수색에 사용된 방법이 베이즈 갱신이었다.

 

베이즈 갱신을 상요해 수색범위를 정한다

블랙박스가 가라앚았을 가능성이 있는 해저를 복수의 범위로 나눈다. 그리고 각각의 범위마다 블랙박스의 발견 사전확률을 설정한다. 주관적으로 설정해도 무관하다. 

그리고, 사전 확률이 가장 큰 범위를 수생한다. 수색은 완전하지 않으며, 만약 거기에 가라앉았다고 해도 일정한 확률로 놓치게 된다. 그러할지라도 '그 범위를 일단 수색했어도 발견되지 않았다'는 새로운 결과가 나온다. 이 새로운 결과를 사용해 각 범위의 발견 확률을 베이즈 갱신한다.  이렇게 해서 얻은 각 범위의 발견 확률(사후확률)은 수색 결과가 가미되어 있는 만큼 최초의 사전확률보다 신회할 수 있을 것이다. 

그리고, 새롭게 발견 확률이 가장 커진 범위를 수색한다. 이 수색에서 발견되지 않아도 그 결과를 사용해 베이즈 갱신을 한다. 이 방법을 사용하면 다음에 어떤 범위를 수색해야 할지를 합리적으로 결정할 수 있다. 

에어프랑스 447편의 블랙박스가 가라앉은 해저의 범위는 이 방법으로 특정되었고, 블랙박스는 드디어 발견, 회수 되었다. 

 

베이즈 수색

베이즈 갱신을 사용한 이 방법을 '베이즈 수색'이라고 하고 과거에도 잠수함 등의 수색에 사용되었다.  

728x90
반응형
728x90
반응형

'늑대가 왔다'라고 외치는 소년을 과연 믿을 수 있을까? 

어느 마을에 양치기 소녀이 있었다. 소년은 심심한 나머지, '늑대가 왔다'라고 거짓말을 해서 마을 사람들을 불러 모았다. 마을 사람들은 연장을 들고 달려왔지만 장난이라는 것을 알고는 웃으면서 돌아갔다. 소년은 여러번 거짓말을 해서 마을 사람들을 속였다. 

어느 날 소년 앞에 정말로 늑대가 나타났다. 소년은 '늑대가 왔다'고 외쳤지만, 마을 사람들은 '더 이상은 속지 않는다'며 소년을 도우러 가지 않았다. 소년은 양들을 모두 잃고 말았다. 

 

이솝 우화 <양치기와 늑대> 이야기는 베이즈 갱신을 생각할 수 있다

 

소년이 '거짓말쟁이'일 확률을 생각해 보자

베이즈 정리를 이용해서 이 이야기를 생각해 보자. 마을 사람들은 처음에 소년을 신뢰하고 있었으므로, 소년이 거짓말쟁이일 확률은 0.1, 정직한 아이일 확률을 0.9로 하자(사전확률).

소년이 '늑대가 왔다'라고 외친 후 늑대가 발견될 확률을 0.8, 늑대가 도망가 버려 발견되지 않을 확률을 0.2라고 하자. 

한편, 소년이 거짓말쟁이라고 살지라도 실제로 늑대가 오면 '늑대가 왔다'라고 외치며 도움을 청하기 때문에, 소년이 거짓말쟁이일 때 늑대가 0.3의 확률로 발견된다고 하자. 

이때 소년이 거짓말쟁이일 확률(사후 확률)을 계산하면, 베이즈 정리로 부터 0.28이 된다. 소년이 거짓말쟁이일 확률은 사전확률 10%에서 28%로 높아진 셈이다. 실은 베이즈 통계에서는 이 확률의 변화가 매우 중요하다. 

 

 

사후 확률을 구하면, 

P(거짓 | 미발견)

=  P(거짓) x P(미발견 | 거짓)  /  P(미발견) 

=  P(거짓) x P(미발견 | 거짓)  /  { P(거짓) x P(미발견 | 거짓) + P(정직) x P(미발견 | 정직) 

=     0.1   x   0.7    /  {0.1  x  0.7  + 0.9  x  0.2}

=  0.28

P(정직 | 미발견) 

=  0.72

 

새로운 결과가 나올 때 마다 '거짓말쟁이일 확률'은 갱신된다

늑대가 발견되지 않아 마을 사람들의 도움은 허탕이 된다. 소년이 거짓말쟁이일 확률은 최초의 10%에서 28%로 높아졌다. 이제 이 허탕치는 일이 2회, 3회 되풀이 되면 소년이 거짓말쟁이일 확률은 어떻게 바뀔까? 

 

5회의 허탕으로 소년은 거짓말쟁이로 확신

소년이 거짓말쟁이일 확률은 처음 10%에서

1회 허탕으로 28%,

2회 허탕으로 57.6%,

3회 허탕으로 82.7%,

4회 허탕으로 94.3%,

5회 허탕으로 98.3%까지 상승한다.

이제 마을 사람들은 결국 소년은 거짓말쟁이라고 확신하게 된다. 다음에 '늑대가 왔다'는 말을 들어도 소년을 도우러 가지 않을 것이다. 

 

베이즈 갱신

이처럼 어떤 일이 일어날 때 마다 사후 확률은 차츰 갱신(업데이트)되어 같다. 이것을 '베이즈 갱신'이라고 한다. 최초의 사전확률이 설령 개개관성이 부족한 것이었다고 해도, 베이즈 갱신을 거듭함으로써 얻는 사후 확률은 차츰 신뢰할 수 있는 것이 되어 간다. 

 

6회째 늑대가 실제로 나타나면?

그런데 5회째 허탕을 친 뒤 6회째에 녹대가 실제로 나타났다고 가정하자. 이 때 소년이 거짓말쟁이일 확률이 98.3%에서 95.6%로 내려간다. 계속해서 늑대가 다시 나타나면, 사후 확률은 89.1%가 되지만, 여전히 높은 상태이다. 거짓말쟁이일 확률이 높아진 뒤에는, 늑대가 한번이나 두번 실제로 나타났다고 해서 소년이 정직한 아이일 확률이 바로 높아지는 것은 아니다. 

 

늑대와 양치기 소년 증후군

미국의 수학자이자 정치학자인 앨버트 월스테터(Albert Wohlstetter, 1913-1997)는 여러 번의 경고에 대해 둔감해지는 경향을 '늑대와 양치기 소년 증후군'이라고 하면서 제 2차 세계 대전 때 미국이 일본군의 진주만 공격을 예측하지 못했던 원인이라고 했다. 

 

 

 

 

 

728x90
반응형
728x90
반응형

민감도 99% 검사에서 '양성'으로 판정되면 실제로 감염되었을까? 

감염자 100명에 대해 99명을 올바로 양성으로 판정

인구 10만 명당 100명의 감염자가 존재하는 감염증이 있다. 어떤 감염 검사를 했을 때 감염되었을 경우에는 '양성', 감염되지 않았을 경우에는 '음성'이라고 판정된다. 

 

단, 이 감염 검사에는 오류가 항상 따라 다닌다. 실제로는 감염되지 않은 100명의 비감염자가 이 검사를 받으면 97명은 올바로 음성으로 판정된다(진짜 음성). 그러나, 3명은 양성으로 잘못 판정된다(가짜 양성). 이것을 전문용어로 '특이도 97%'라고 한다. 

한편, 실제로 감염된 100명의 감염자가 이 검사를 받으면 99명은 올바로 양성으로 판정된자(진짜 양성). 그러나 1명은 음성으로 잘못 판정된다(가짜 음성). 이것을 '민감도 99%'라고 표현한다.

특이도 감도 개념은 아래 링크 참조

https://aeir.tistory.com/entry/%ED%86%B5%EA%B3%84-%EC%98%A4%EC%B0%A8%ED%96%89%EB%A0%AC-confusion-matrix

 

'양성'으로 판정되었다면 실제로 감염되었을 확률은?

당신이 이 검사를 받았더니 '양성'이라고 판정되었다. 이때 당신이 실제로 감염되었을 확률은 어느 정도일까? '민감도99%

의 검사'에서 양성이라고 판정되었다면 거의 확실하게 감염되었다고 생각하기 쉽다. 그러나, 실제로 계산해 보면 그 생각은 잘못된 생각이다. 

 

 

베이즈 정리를 사용하면, '실제 감염되었을 확률'을 구할 수 있다. 

10만 명이 검사를 받으면 몇 사람이 양성으로 판정될까?

10만 명 가운데 실제로 감염자는 100명이다. 이 100명이 검사를 받으면 99명이 올바로 양성이라고 판정된다(진짜 양성).

한편, 10만 명 중 실제로 비감염자는 9,900명이다. 이 사람들이 모두 검사를 받으면 그 중 3%에 해당하는 2,997명이 양성이라고 잘못 판정된다(거짓 양성).

따라서, 양성이라고 판정된 사람의 합계는 99명(진짜양성) + 2,997명(거짓 양성) = 3,096명이다. 

 

실제 감염되었을 확률은 약 3.2%

이 검사에서 양성으로 판정받은 3,096명 가운데 실제로 감염된 사람들은 진짜 양성인 99명이므로, 구하는 확률은 99/3,096 ~ 3.2%이다. 양성이라고 판정되었더라도 실제 감염되었을 확률은 불과 3% 정도이다. 

 

양성 판정으로 감염률은 0.1%에서 3.2%로 상승

원래 이 감염증의 감염률(사전 확률)은 0.1%로서, 검사를 받기 전 당신은 0.1%의 확률로 감염되어 있음을 의미했다.

그러나, 이 검사를 받고 양성이라고 판정된 결과, 당신의 감염확률은 약 3.2%(사후 확률)로 상승한다.

 

이처럼 어떤 일이 일어남에 따라 사전 확률은 사후 확률로 바뀐다. 이것이 베이즈 통계의 큰 특징이다. 

 

베이즈 정리를 사용해 계산해 보기

P(감염) = 1/1000 ;  P(비감염) = 999/1000

이제 양성이라고 판정될 확률은

    1) 감염되었을 때 P(양성 | 감염) = 99/100

    2) 감염되지 않았을 때 P(양성 | 비감염) = 3/100

 

따라서, 양성이라고 판정되었을 때 감염되었을 사후 확률은 다음과 같다. 

P(감염 | 양성) = 0.032

 

이러한 사후 확률을 구하는 방법은 

P(감염 | 양성)

= P(감염) x P(양성 | 감염) / P(양성) 

= P(감염) x P(양성 | 감염) / { P(감염) x P(양성| 감염) + P(비감염) x P(양성 | 비감염) }

= 1/1000  x  99/100        /  { 1/1000  x   99 /100      +      999/1000  x  3/100 }

= 99/3096

= 0.032 

 

 

 

재검사에서 '다시 양성'인 경우, 감염 확률은 어떻게 될까? 

당신은 이 검사에서 양성이라고 판정되었지만, 실제로 감염되었을 확류은 3.2%였다. 그런데 재검사를 받고 다시 양성으로 판정되었다고 하자. 이제 당신이 실제로 감염되었을 확률은 얼마일까? 

 

2회째도 양성이면 감염 가능성은 농후해 진다. 

처음 검사에서 양성이라 판정되었던 3,096명 가운데 실제로 감염자는 99명이다. 이 99명의 감염자가 재검사를 받으면 약 98명은 양성이라고 올바로 판정된다(진짜 양성). 한편, 3,096명 가운데 실제 비감염자는 2997명이었다. 이 2997명의 비감염자가 재검사를 받으면 그 3%에 해당하는 약 90명은 양성으로 잘못 판정된다(가짜양성).

 

따라서, 2회째 검사에서 다시 양성이라고 판정되는 사람의 수는 약 98명(진짜 양성) + 약 90명(가짜양성) = 188명이다. 

당신은 이 188명 중 1명이다. 

2회째 양성 판정을 받은 사람이 실제로 감염되었을 확률은 98/188 ~ 52%가 된다. 59%를 넘어 실제로 감염되었을 가능성이 커진다. 

베이즈 정리를 사용해 계산해 보기

앞의 계산 식에서 0.1%를 3.2%로 바꾸고 베이즈 정리를 사용해 계산하면 된다. 

 

P(감염) = 99/3096 ;  P(비감염) = 2997/3096

이제 양성이라고 판정될 확률은

    1) 감염되었을 때 P(양성 | 감염) = 99/100

    2) 감염되지 않았을 때 P(양성 | 비감염) = 3/100

 

따라서, 양성이라고 판정되었을 때 감염되었을 사후 확률은 다음과 같다. 

P(감염 | 양성) = 0.52

 

이러한 사후 확률을 구하는 방법은 

P(감염 | 양성)

= P(감염) x P(양성 | 감염) / P(양성) 

= P(감염) x P(양성 | 감염) / { P(감염) x P(양성| 감염) + P(비감염) x P(양성 | 비감염) }

=  99/3096  x  99/100        /  { 99/3096  x   99 /100      +     2997/3096  x  3/100 }

=  9801/18792

= 0.52 

728x90
반응형
728x90
반응형

오차행렬을 confusion matrix (혼동행렬) 

개발된 모델을 평가하기 위해서는 오차행렬을 사용한다. 오차행렬은 실제로 참인지 거짓인지, 예측을 긍정으로 했는지, 부정으로 했는지에 따라 네 개의 경우의 수로 구분한 표이다. 머신러닝 / 딥러닝 모델을 평가하는데 중요한 기준을 제공한다.

 

* 분류 기준은 예측값!

     참양성(TP)    :  예측이 참(양성)이고 실제값도 참(양성) 일치

     거짓양성(FP) : 예측이 참(양성)이고 실제값은 거짓(음성) 불일치

     거짓음성(FN) : 예측이 거짓(음성)이고 실제값은 참(양성) 불일치

     참음성(TN)    :  예측이 거짓(음성)이고 실제값도 거짓(음성) 일치

   

모델 예측 결과
(평가 대상) 

    참 (양성)  거짓 (음성)  


실제 측정 결과
(평가 기준)
참 (양성)  TP (참양성) FN (거짓음성)
거짓 (음성)  FP (거짓양성)
TN (참음성)

 

오차행렬은 모델 예측이 얼마나 잘된 예측인지를 판단하는 데 중요한 기준을 제공한다. 오차행렬로부터 모델의 우수성을 평가하는 아래와 같은 여러 지표를 도출할 수 있다.

 

Accuracy (정확도 또는 정분류율)

전체 데이터중 정확하게 예측한 데이터의 비율

(TP + TN) / (TP + FP +TN + FN)  

 

Error Rate (오분류율)

전체 데이터 중 잘못 예측한 데이터의 비율, 1- accruracy

(FP + FN) / (TP + FP +TN + FN)  

 

Precision (정밀도)

참이라고 예측한 것(TP + FP)  중 실제 참(TP)인 정도

TP / (TP + FP)   

 

Recall (재현율) or Sensitivity (민감도) 또는 참 긍정률

실제값이 참인 관측값(TP+FN) 중 참이라고 바르게 예측(TP) 한 정도

TP / (TP + FN)

 

Specificity (특이도) 

실제값이 거짓인 관측값(FP + TN) 중 거짓으로 바르게 예측(TN)한 정도

TN / (FP + TN)  : 실제 음성인데 양성으로 분류된 비율 (참음성의 비율)

 

FP-Rate (거짓 긍정률)

실제값이 거짓인 관측값 중 참이라고 잘못 예측(FP)한 정도1-특이도

FP / (TN + FP) 

F1 score

2 / {1/정밀도 + 1/재현율}

 

정밀도와 민감도(재현율)의 조화평균으로 0~1 사이 값을 가짐

정밀도와 민감도 사이의 trade-off로서, 정밀도가 증가하면 민감도 감소, 민감도 증가하면 정밀도 감도

F-score 는 정밀도와 민감도가 한쪽으로 치우치지 않을 때 높은 값을 가짐

정밀도, 민감도, F-socre 를 종합적으로 분석하여 모델 성능을 판단해야 함. 

 

 

 

 

 

728x90
반응형
728x90
반응형

당신 앞에 놓인 것은 항아리 A일까, B일까? 

항아리 A와 항아리 B에는 각각 붉은색과 푸른색 구슬이 각각 20개씩 들어있다.  항아리 A에는 붉은 구슬 4개와 푸른 구슬 16개, 항아리 B에는 붉은 구슬 12개, 푸른 구슬 8개가 들어있다. 

 

눈을 가리고 어떤 사람이 항아리를 당신 앞에 둔다고 하자. 당신이 항아리에 손을 넣고 잘 저은 후, 1개의 구슬을 꺼냈더니 붉은 구슬이었다. 이때 당신 앞에 놓인 것은 항아리 A일까 항아리 B일까? 

 

이 문제는 붉은 구슬을 꺼냈다는 겨로가로 부터 원인(=어느 항아리가 놓였을까)을 추정하는 문제라고 생각할 수 있다. 베이즈 정리를 사용해 그 확률을 추정해 보자. 

 

베이즈 정리를 이용하면, '역확률'을 구할 수 있다. 

당신 앞에 항아리 A나 B가 놓일 확률은 공평하게 P(A) = P(B) =1/2 라고 하자. 이같이 판단 정보가 없을 때 평등하게 확실할 것 같다고 간주해 설정한 확류을 '사전 확률'이라고 한다. 

 

A가 놓였을때 붉은 구슬을 꺼낼 조건부 확률 P(red | A)를 구해보자.

A에는 구슬이 20개 있고 그 가운데 4개가 붉은색이므로 P(red | A) = 4/20 = 1/5 이다.

마찬가지로 B가 놓였을 때 붉은 구슬을 꺼낼 조건부 확률운 P(red | B) = 12/20 = 3/5 이다.

 

이들을 베이즈 확률식에 적용하면,

붉은 구슬을 꺼냈을 때 A가 놓였을 확률(즉 붉은 구슬을 꺼냈을 때의 사후확률)은 P(A | red)

= P(A) x P(red | A) / P(red)

= P(A) x P(red | A) / (P(A) x P(red | A) + P(B) x P(red | B)

1/2  x      1/5      / ( 1/2   x       1/5     + 1/2   x   3/5  ) 

= 1/4 = 25% 

붉은 구슬을 꺼냈을 때 B가 놓였을 확률(즉 붉은 구슬을 꺼냈을 때의 사후확률)은 P(B | red)

= 1 - P(A | red) = 1 - 1/4 = 3/4 = 75%

 

같은 방법으로, P(A | blue) 와 P(B | blue)도 구할 수 있다.

 

728x90
반응형
728x90
반응형

베이즈 정리를 사용하면, '결과'로 부터 '원인'을 추정할 수 있다.

베이즈 정리는 '확률'에 대한 정리이다. 

베이즈 정리 준비 단계로 확률을 다루는 수학의 기본을 다시 확인해 보자. 

확률이란 '어떤 일 또는 사건이 일어나기 쉬운 정도'를 나타내는 수치이다. 확률은 0에서 1까지의 값을 취하며, 1에 가까울수록 그 사건이 확실하게 일어나는 것을 의미한다. 

A라는 사건이 일어날 확률은 P(A)로 나타낸다. 

 

'조건부 확률'이란?

조건부 확률이란 '어떤 조건을 바탕으로 다른 사건이 일어날 확률'을 말한다. 

예를 들어, '52장의 트럼프 카드에서 뽑은 1장이 하트일 때, 그것이 K일 확률' 같은 것이고, P(K|하트) 로 나타낸다. 

{A가 일어났을 때 B가 일어날 확률} = {A와 B가 동시에 일어날 확률} / {A가 일어날 확률}

P(B|A) = P(A∩B) / P(A)

 

'베이즈 정리'란?

'복통에 걸린 원인을 알고 싶다', '성공한 요인은 무엇일까?' 등과 같이 어떤 결과가 있을 때 무엇이 원인이었는지를 알고 싶은 일은 흔히 있다. 그럴ㄸ 때 도움이 되는 도구가 베이즈 정리이다. 이를 이용하면 결과의 배후에 있는 원인을 찾아낼 수 있다. 

조건부 확률을 사용하면, '원인 A가 일어났을 때 결과 B가 일어날 확률'은 P(B|A)로 나타낼 수 있다. 한편 베이즈 정리는 원인과 결과의 순서를 거꾸로 한 P(A|B)를 구하는 정리이다. 이것은 '결과 B가 있을 때, 그것이 원인 A에 의한 것일 확률'을 의미한다. 

베이즈 정리를 사용해 구한 확률은 시간을 거스르는 것처럼 해서 결과에서 원인을 추정하는 확률이라 할 수 있다. 이 점에서 베이즈 정리에 근거한 베이즈 통계학에서는 이 확률을 가리켜 '역확률'이라고 부르기도 한다. 

 

P(원인 A | 결과 B) = P(원인 A) x P(결과 B | 원인 A) / P(결과 B)

여기서, P(원인 A | 결과 B)를 사후 확률,  P(원인 A) 을 사전 확률이라고 한다. 

P(결과 B)는 A 뿐만 아니라 A이외의 원인에 의해 결과 B가 일어날 확률도 모두 계산하고 그들을 모두 더해 얻어진다. 

 

 

라플라스에 의해 '베이즈 정리'는 확률론의 기초가 되었다. 

확률에 대한 수학적으로 생각하는 '확률론'의 기원은 17세기 도박 연구였다. 확률론의 창시자는 블레즈 파스칼(1623-1662)와 피에르 드 페르마(1607-1665)이고, 확률론을 확립한 인물이 수학자이자 천문학자이자 정치가였던 시몽 라플라스(1749-1827)였다. 나폴레옹은 사관학교 수학교수였던 라플라스에게 수학의 재능을 인정받아 사관학교 입학을 허가 받았다.

라플라스가 지적한 '이유 불충분의 원리'

'주사위를 1회 던져서 1의 눈이 나올 확률은? '

이렇게 질문을 받으면 우리는 '1/6'이라고 답한다. 특정한 눈이 나오기 쉽다고 간주할 충분한 이유가 없으면 어떤 눈이 나올 확률은 모두 같다. 이것으 '이유 불충분의 원리'라고 하며, 확률론의 기초 가운데 하나이다. 이 원리를 라플라스가 최초로 고안항였다. 

 

'불확실'한 현실에서는 특히 확률론이 필요

라플라스는  1814년에 출판한 <확률의 철학적 시론>에서 이렇게 말했다. 

 

'어떤 시점에서 자연을 움직이는 힘과 구성물의 상태 모두를 알고 있는 지서이 있다면,

그 지성에게는 불확실한 것이 아무것도 없고 과거와 미애를 모두 꿰뚫어볼 수 있을 것이다.'

 

이 지성을 '라플라스의 악마'라고 부르기도 한다. (라플라스 자신은 악마라는 말을 사용하지 않았다.)

현실의 인간 주위에는 불확실한 일들이 매우 많으며 과거와 미래 모두를 알아차리기는 어렵다. 그러므로 라플라스는 확률론이 더욱 필요하다고 말하고 싶었는지도 모른다.

 

라플라스는 이 책에서 6가지 원리를 제시했다. 거기에는 '이유 불출분의 원리', '덧셈 정리', '곱셈 정리' 등도 들어있다.

마지막 제6원리는 '관찰된 이에 여러가지 원인이 생각될 때, 각각의 확률을 구하는 원리'였다. 이것이 베이즈 정리이다. 

 

라플라스는 베이즈 정리를 확률론의 기초 원리로 자리 잡게 한 것이다. 최초의 발견자를 존중해 ' 베이즈 정리'라고 부르고 있지만, 라플라스야 말고 이 정리의 확립에 가장 크게 공한한 수학자이다. 

 

728x90
반응형
728x90
반응형

18세기의 목사 토머스 베이스는 확률에 대해 무엇을 생각했나?

영국 런던 남동쪽 턴브리지웰스 Tunbridge Wells 라는 마음에 토마스 베이즈(Thomas Bayes, 1702-1761)는 개신교 목사로 활동한 사람이다.  영국 에든버러 대학에서 논리학과 신학을 공부했다. 목사가 된 베이즈는 아이작 뉴턴(1642-1727)의 신봉자로 수학자로도 활동했다. 뉴턴이 발견한 미적분법(유율법)에는 엄밀성이 결여되어 있다는 비판이 일어날 때, 베이즈는 유율법을 옹호했다. 

 

베이즈 정리의 원형이 되는 개념은?

베이즈는 특히 확률 문제 에 흥미를 가졌고, 수학자로서 남긴 유일한 논문에 베이즈 정리의 원형이 되는 확률 개념이 적혀있다. 

"사물의 원인이 불명인 경우는 '하나가 아니라, 다수의 원인이 작용하고 있다.'고 가정하자. 그리고 다수의 원인에 대해 확률을 생각하고, 관찰된 결과를 사용해서 해결하면 된다." 

이 문장의 '원인에 대한 확률'에 주목한 그의 사고방식이 오늘 날 베이즈 통계의 기초가 되었다. 

 

베이즈 사후 친구가 논문을 세상에 알림

베이즈 사후 친구인 리처드 파라이스(Richard Price, 1723-1791)가 논문을 1763년에 출판하였다. 그리고 프랑스 수학자 피에르 시몽 라플라스(1749-1827)에 의해 베이즈 정리는 확률론의 기초로 자리 잡았다. 

 

 

728x90
반응형
728x90
반응형

어떤 가족의 자녀 2명이 있다. 그 가운데 적어도 1명은 아들이다. 이때 2명 모두 아들일 확률은?

미국 수학자 마틴 가드너(Martin Gardener, 1914~2010)가 1959년 Scientific American 저널의 칼럼에 실린 문제

직감적으로는 1/2로 생각되지만, 

1명이 아들이이라고 알려져 이으므로, 2명 모두 아들인지 아닌지는 다른 1명이 아들인지 딸인지로 정해진다. 아들인지 딸인지 각각의 확률은 1/2이다. 

하지만, 가드너의 답은 1/3 이었다. 

왜 직감과 다른 답이 나올까? 

반응형

네 가지 경우로 나누어 생각해 보자

'적어도 1명은 아들'이라는 조건이 없으면, '형-남동생', '오빠-여동생', '누나-남동생', '언니-여동생' 의 4가지 경우를 생각할 수 있다. 어느 경우도 확률은 같다. 

여기서, '적어도 1명은 아들'이라는 정보가 주어졌으므로, '언니-여동생'의 경우는 제외되고, 남는 것은 3가지 경우 뿐이다. 

이렇게 남은 3가지 경우 가운데 2명 모두 두 아들인 것은 '형-남동생'의 1가지 경우 밖에 없다. 따라서, 구하는 확률은 1/3이다. 

 

728x90
반응형
728x90
반응형

가설검정의 기본원리

가설검정(hypothesis testing) : 표본을 기초로 얻은 검정통계량의 관찰값을 이용하여 모집단분포 또는 모수에 대해 이미 설정된 가설에 대한 타당성을 판정하는 과정

표본에 근거하여 타당성을 조사한 결과 이미 설정한 가설이 거짓으로 판정되면 그 가설을 기각(reject)한다 하고,

설정한 가설이 타당성이 있거나 부정하지 못하면 그 가설을 채택(accept)한다고 한다.

 

거짓이 명확히 규명될 때까지 참인 것으로 인정되는 모수에 대한 가설, 반증적 방법으로 증명하기 위해 기각할 것을 바라면서 설정하는 가설을 귀무가설(null hypothesis)이라 하고 H0으로 나타낸다.

귀무가설과 대립되거나 이 가설을 부정하는 가설로서 강력한 증거로 입증하고자 하는 가설을 대립가설(alternative hypothesis)이라 하고 H1로 나타낸다.

 

검정통계량(testing statistic) : 두 가설의 진위여부를 판정하기 위해 표본을 이용하여 얻은 통계량

기각역(critical region): 귀무가설 H0 을 기각시키는 검정통계량의 관찰값이 포함되는 영역

채택역(acceptane region): 귀무가설을 기각시키지 못하는 검정통계량의 관찰값이 포함되는 영역

 

 

 

 

 

 

 

 

모평균의 검정

 

 

 

728x90
반응형
728x90
반응형

1. 가설검정의 기본원리 

 

표본을 기초로 얻은 검정통계량의 관찰값을 이용하여 모집단분포 또는 모수에 대해 이미 설정된 가설에 대한 타당성을 판정하는 과정을 가설검정(hypothesis testing)이라 한다.

표본에 근거하여 타당성을 조사한 결과 이미 설정한 가설이 거짓으로 판정되면 가설을 기각(reject)한다 하고, 설정한 가설이 타당성이 있거나 부정하지 못하면 가설을 채택(accept)한다고 한다.

 

거짓이 명확히 규명될 때까지 참인 것으로 인정되는 모수에 대한 가설, 반증적 방법으로 증명하기 위해 기각할 것을 바라면서 설정하는 가설을 귀무가설(null hypothesis)이라 하고 H0으로 나타낸다.

귀무가설과 대립되거나 이 가설을 부정하는 가설로서 강력한 증거로 입증하고자 하는 가설을 대립가설(alternative hypothesis)이라 하고 H1로 나타낸다.

 

두 가설의 진위여부를 판정하기 위해 표본을 이용하여 얻은 통계량을

검정통계량(testing statistic)이라 한다.

귀무가설 H0 을 기각시키는 검정통계량의 관찰값이 포함되는 영역을

기각역(critical region), 귀무가설을 기각시키지 못하는 검정통계량의 관찰값이 포함되는 영역을 채택역(acceptane region)이라 한다.

 

귀무가설의 진위 여부를 판정하기 위해 추출된 표본으로부터 얻은 정보를 기초로 두 가지 가설 중에서 어느 하나를 선택하므로 오류가 발생할 수 있다.

 

 

 

 

 

 

 

 

2. 모평균의 검정

 

 

 

 

3. 모비율의 검정

 

4. 모분산의 검정

 

 

5. 적합도 검정

 

 

 

 

6. 독립성 검정

 

 

 

 

728x90
반응형
728x90
반응형

1. 추정의 개념

통계 추론(statistical inference) : 표본으로부터 얻은 정보를 이용하여 과학적으로 미지의 모수를 추론하는 과정
추정(estimation) :  표본평균, 표본비율, 표본분산 등과 같은 표본으로부터 얻은 통계량을 이용하여 모수를 추론하는 과정

점추정 (point estimation) : 모수에 대한 추정량은 표본추출에 따라 가변적이므로 최적의 추정량을 설정하여 가장 보편타당한 추정값을 얻어야 하며, 이와 같은 최적의 추정값을 구하는 과정

구간추정(interval estimation) : 미리 정해진 어느 정도의 확신을 가지고 모수 q의 참값이 포함될 것으로 믿어지는 구간을 추정하는 방법

 

[Note]  바람직한 추정량의 성질

1. 불편성 unbiasedness

   모수의 추정량의 기대값이 모수가 되는 성질. 추정량의 기댓값이 모수의 참값과 같아지는 성질

2. 일치성 Consistency
   표본의 크기가 커짐에 따라 또는 충분히 크다면, 추정량이 확률적으로 모수에 가깝게 수렴하는 성질. 
3. 효율성 또는 유효성 Efficiency
   추정량이 불편추정량이고, 그 분산이 다른 추정량에 비해 상대적으로 작은 분산을 갖는 성질
4. 충분성 Sufficiency

    모수에 대하여 가능한 많은 표본정보를 내포하고 있는 추정량의 성질

 

 

 

 

2. 최대우도추정

 

 

 

3. 모평균의 구간추정

 

 

 

 

 

 

 

4. 모비율의 구간추정

 

 

 

5. 표본의 크기 결정

 

 

6. 모분산의 구간추정

 

 

 

728x90
반응형
728x90
반응형

표본분포 

모분산을 알고 있는 비현실적인 경우 

● 아래와 같은 확률분포를 갖는 모집단으로부터 크기가 36인 확률표본을 추출한다고 하자. 이 때, P(3.5 < X ≤ 4.5) 를 구하라. 

x 1 2 3 4 5 6
f(x) 0.3 0.1 0.1 0.1 0.3 0.1
x <- c(1, 2, 3, 4, 5, 6) 
f_x <- c(0.3, 0.1, 0.1, 0.1, 0.3, 0.1)
mean <- sum(x * f_x)  # 모평균
var <- sum(x^2 * f_x) - mean^2    # 모분산
mean; var
#모평균과 모분산을 이용하여, 표본평균과 표본분산 계산
S_mean <- mean
S_var <- round(var/36, 3)
S_mean; S_var
# z 값 계산
(z_low <- round((3.5 - S_mean)/sqrt(S_var), 3))
(z_high <- round((4.5 - S_mean)/sqrt(S_var), 3))
round(pnorm(z_high) - pnorm(z_low), 4)

●  모비율 0.6인 모집단으로부터 크기 36인 표본을 취했을 때 표본비율 p가 0.5와 0.7 사이일 확률은?

p <- 0.6; n <- 36
sd<- round(sqrt(p* (1-p) / n), 2)
sd
(z_low <- (0.5 - p) /sd)
(z_high <- (0.7 - p) /sd) 
round(pnorm(z_high) - pnorm(z_low), 4)

 

카아제곱분포

● Z ~ N(0,1) 일때, P(Z2 < 3.841)을 구하시오. 

# pnorm(분위수, 평균, 표준편차)를 이용하여 정규분포로 부터 P(-sqrt(3.841 < Z < sqrt(3.841)를 구함.
# 평균과 표준편차를 생략하면 표준정규분포로 부터 계산함
pnorm(sqrt(3.841)) - pnorm(-sqrt(3.841))
# 또는
# pchisq(분위수, 자유도)를 이용하여 카이제곱분포로 부터 P[x^2(1) < 3.841)을 구함
round(pchisq(3.841, 1),2 )

● 어떤 회사에서 생산되는 철근의 장력은 분산 σ2 = 100인 정규분포를 따른다. 11개의 강철빔들을 무작위로 추출할 때, 그 장력의 표본분사 S2이 205보다 클 확률은?

p <- 0.6; n <- 36
(sd<- round(sqrt(p* (1-p) / n), 2))
(z_low <- (0.5 - p) /sd)
(z_high <- (0.7 - p) /sd) 
round(pnorm(z_high) - pnorm(z_low), 4)

 

T 분포

모분산을 알지 못하는 현실적인 경우 

● 어느 학교의 학생들의 IQ는 평균 120인 정규분포를 따른다. 25명의 학생들을 무작위로 추출했을 때, IQ의 표준편차는 S=6이었다. (1) 표본평균 X가 117보다 크지 않을 확률을 구하여라. 

mean <-120; sd <- 6; n <- 25 
x <-117 
t <- (x- mean) / (sd/sqrt(n))
t
round(pt(t, n-1), 2)

 

728x90
반응형
728x90
반응형

 

 

 

728x90
반응형
728x90
반응형

1. 표본 분포

모분산이 알려진 경우 (비현실적, 이상적인 경우)

X1, X2 가 취할 수 있는 값은 각각 0, 1, 2, 3 이다. 표본평균 X의 확률분포를 구하기 위하여 X1, X2 의 결합분포를 생각하면, 위 표와 같이 나타낼 수 있다. 

한편,  X1, X2 가 취할 수 있는 값은 각각 0, 1, 2, 3 이므로, X의 관찰 가능한 값은 0, 0.5, 1, 1.5, 2, 2.5, 3 이므로, X1과 X2사이에는 아래와 같은 관계가 있다. 

 X=0    : (X1, X2 ) = (0, 0)

 X=0.5 : (X1, X2 ) = (0, 1), (1, 0)

 X=1.0 : (X1, X2 ) = (0, 2), (1, 1), (2, 0)

 X=1.5 : (X1, X2 ) = (0, 3), (1, 2), (2, 1), (3, 0)

 X=2.0 : (X1, X2 ) = (1, 3), (3, 1), (2, 2)

 X=2.5 : (X1, X2 ) = (2, 3), (3, 2) 

 X=3.0 : (X1, X2 ) = (3, 3)

따라서, X의 확률분포는 아래 표와 같다.

 

 

중심극한 정리와 표본평균의 표본분포 비교

(참고) 표본 비율을 특정할 수 없는 경우, 1/2 로 지정한다. 

 

 

 

2. 카이제곱분포

모평균을 추정하기 위해 표본평균을 사용

모분산을 추정하기 위해 표본분산을 사용

모평균 추론을 위해서 표본평균의 분포를 알아야

모분산 추론을 위해서 표본분산의 분포를 알아야

 

카이제곱분포

감마분포에서 α=n/2, β=2 인 특수한 경우를 자유도 n인 카이분포라고 한다.

모순산이 특정한 값을 갖는지 여부를 검정하는데 사용하는 분포

두 범주형 변수간의 연관성을 검정하는데 주로 사용

 

 

카이제곱분포 만들기

1. 표준정규분포에서

2. 변수 한 개(자유도 1) 를 랜덤하게 추출

3. 그 변수를 제곱해서 히스토그램으로 표현

이 과정을 반복하면, 아래 양의 히스토그램.

 

한번에 추출하는 변수가 2개 이상, 즉 자유도 2개 이상이면, 변수들을 각각 제곱해서 더함. 따라서, 더해주는 변수가 많아질 수록 정규분포에 접근(중심극한 정리)

카이제곱 분포 응용

일반적으로 오차(error)는 정규분포로 만들어 두기 때문에 오차 또는 편차를 분석할 때 유용.

샘플수가 무수히 많고 합을 이용해 오차를 정의하는 경우, 오차의 분포를 정규분포를 따름(중심극한 정리)

오차나 편차가 우연히 발생할 수 있다고 볼 수 있을 만한 수준인지 아닌지 판별할 수 있다.
그림 예. 회귀분석 시, 샘플링 데이터는 정규분포에서 랜덤하게 샘플링 되어 얻은 값이라고 가정

 

 

 

 

3. T 분포 

모분산이 알려지지 않은 경우 (현실적인 경우)

 

 

 

 

정리

728x90
반응형
728x90
반응형

베르누이 분포와 이항분포

● 앞면이 나올 가능성이 1/3인 왜곡된 동전을 반복해서 3번 던질 때 확률변수 X를 앞면이 나온 횟수라 하자. 이 때 확률변수 X의 확률 분포를 구하라. 

#MASS 패키지 사용
#dbinom(성공횟수, 시행횟수, 성공확률)을 이용해 이항분포로부터 P(X = x)를 구한다. 
library(MASS)
n =3; p = 1/3
xx <- dbinom(0:3, n, p)  
#names()를 이용하여 확률분포표의 형태로 출력
names(xx) <- c("0", "1", "2", "3")
xx
#as.fractions()를 이용하여 소수를 분수로 변환
frac_xx <- as.fractions(xx)
names(frac_xx) <- c("0", "1", "2", "3")
frac_xx

● 한 개의 공정한 주사위를 4번 던질 때 1의 눈이 나타날 확률분포를 구하여라. 

n =4; p = 1/6
xx <- dbinom(0:4, n, p)
names(xx)=c("0", "1", "2", "3", "4")
round(xx, 3)

 전 1개를 5회 던질 때, 앞면이 나오는 횟수를 확률변수 X라고 할 때, X의 평균과 분산, P(X≤2)를 구하시오. 

#distrEx 패키지 내 Binom(표본크기, 성공확률)로 이항분포를 정의
#E(X), var(X)로 평균과 분산을 구함. 
library(distrEx)
x <- c(0, 1, 2, 3, 4, 5)
xx <- Binom(5, 0.5)
as.fractions(E(xx))
as.fractions(var(xx))

또는

x <- c(0, 1, 2, 3, 4, 5)
xx <- dbinom(0:5, 5, 0.5)
xx
as.fractions(mean_xx <- sum(x * xx))  
as.fractions(var_xx <- sum((x - mean_xx)^2 * xx))
as.fractions(pbinom(2, 5, 0.5))

 

포아송 분포

어떤 복권 판매점에서는 매일 10시와 11시 사이에 고객이 평균 60명씩 몰려든다고 하자. 그렇다면 10시와 11시 사이에 1분당 2명이 도착할 확률은?

# 1분당 평균 도착할 확률은 lambda
time = 60; people = 60
lambda = people/time
#dpois(발생횟수, 평균)을 이용, 포아송 분포로 부터 P(X=2)를 구함. 
dpois(2,lambda)

 어떤 공장에서 생산된 물건의 불량율이 0.0001이다. 그 공장의 생산라인에서 50,000개를 임의로 추출하여 2개 이하의 불량품이 나올 확률은? 

n = 50000; p = 0.0001
lambda = n * p 
# ppois(분위수, 평균발생횟수)를 이용하여 포아송 분포로 부터 P(X<=2)를 구함
ppois(2, lambda)
# 또는 
# pbinom(분위수, 표본 크기, 성공 확률)을 이용하여 이항분포로부터 P(X<=2)를 구함. 
pbinom(2, n, p)

 

정규분포 

통계학과 학생의 영어성적은 N(75, 9)인 정규분포를 따른다고 한다. 어느 한 학생의 영어성적이 80점 이상일 확률을 구하라. 

x <- 80
mean <- 75
sd <-3
z <- (x-mean)/sd
round(z,2)
#pnorm(분위수)를 이용 정규분포로 부터 P(X >= 80)을 구하기 위해서, 1-P(X <= 80)을 이용
round(1-pnorm(z),4)
728x90
반응형
728x90
반응형

포아송 분포

어느 제철공장에서 일 년 동안 발생하는 인명사고 건수의 평균이 3건이라고 할 때, 일 년 동안 한 건 이하의 인명사고가 일어날 (1) 확률을 구하고, (2) 기대값과 분산을 구하라.

풀이: 구하고자 하는 확률은 한 건 이하의 인명 사고 이므로, 인명사고 건수를 확률변수 X 로 두면, 구하고자 하는 확률은 P(X≤1)이다.  문제에서, 확률 변수 X는 인명사고 건수의 평균 l=3 인 포아송 분포를 따른다고 했으므로,

 

(1) 확률         P(X≤1) = P(X=0) + P(X=1) = exp(-3) 30 / 0! + exp(-3) 31 / 1!   = 0.04979 + 0.14936 = 0.19915

 

(2) 기대값     람다=3 포아송 분포를 따르므로 X~P(3)    따라서, E(X) = 3; Var(X) = 3      

어느 영한사전은 한 페이지에 오타가 평균적으로 2개있다. 이 사전에서 어느 한 페이지를 보았을 때 오타가 3개 이상 있을 (1) 확률 (2) 기대값과 분산은?

풀이:

확률변수 X는 오타의 평균이므로 X l =2포아송 분포를 따르므로 X~(2)

P(X≥3) = 1 – P(X<3)  = 1 – {P(x=0) + P(x=1) + P(x=2)}  = 1 –  {exp(-2) 2^0 / 0!  +  (exp(-2) 2^1 / 1!  + (exp(-2) 2^2 / 2! }

                  = 1 – (0.1353 + 0.2707 +0.2707)   = 0.3233     따라서, E(X) = 람다 =2; Var(X) = 2

 

정규 분포

● 어떤 전구는 평균 수명이 790시간이고, 표준편차가 40시간인 정규분포를 따른다. 16개의 전구를 추출할 경우 평균수명이 775시간 보다 짧을 확률을 구하시오 

답: u= 790, sigma=40,  n= 16   P(X<= 775) = 1-P(Z<1.5) = 1-0.9332 = 0.0668

 

● 앞면이 나올 확률이 0.5인 동전을 100번 던졌을 경우, 앞면이 50번 이상 나올 확률은? 

풀이:  이항분포의 정규근사 조건 np>5이고 n(1-p)>5를 만족하므로 E(X) = np =50, Var(X) =npq = 25

따라서 P(X>50) = P(Z > (50-50)/5 = 0) = 1-P(Z<0) =   0.5

 

 

 

728x90
반응형
728x90
반응형

이산형 확률분포들의 개념

균일분포(이산형)

확률변수 X는 x1부터 xn까지 균일한 크기인 1/N의 확률을 갖는 분포

베르누이 시행

동등한 실험조건하에서 실험의 결과가 단지 두 가지의 가능한 결과(성공,실패)만 갖는 분포

이항분포*

성공의 확률이 p인 베르누이 시행을 독립적으로 n번 반복 시행했을 때 성공의 횟수에 대한 분포

포아송 분포*

단위시간(면적, 공간) 내에서 발생하는 어떤 사건의 횟수에 대한 분포

기하분포*

성공의 확률이 p인 베르누이 시행을 처음으로 성공할 때까지의 시행횟수에 대한 분포

음이항부포

성공의 확률이 p인 베르누이 시행을 독립적으로 반복시행할 때 k번 성공할 때 까지의 시행횟수에 대한 분포

초기하분포

크기  N의 유한 모집단 중 크기 n의 확률표본을 뽑을 경우, N개 중 k개는 성공으로 나머지 (N-k)개는 실패로 분류하여 비복원으로 뽑을 때, 성공의 횟수에 대한 분포

 

연속형 확률분포들의 개념

균일분포(연속형)

구간 (a,b)에서 값들이 나타날 가능성이 균일한 분포

정규분포*

평균은 곡선의 중심위치를 결정하고, 표준편차는 그 곡선의 퍼진 정도를 나타내는 종모양의 분포

지수분포*

어떤 사건이 포아송 분포에 의해서 발생될 때 지정된 시점으로부터 이 사건이 일어날 때 까지 걸린 시간을 측정한 분포

감마분포*

지수분포의 개념을 확장하여 a번의 사건이 발생할 때까지의 대기시간 분포

카이제곱분포

모분산이 특정한 값을 갖는지 여부를 검정하거나 두 범주형 변수간의 연관성을 검정하는데 사용되는 분포

t분포*

소표본에서 정규분포를 따르는 집단의 평균에 대한 가설검정 또는 두 집단의 평균 차이검정에 사용되는 분포

F분포

집단간 분산비 검정에 주로 사용되는 분포

 

728x90
반응형
728x90
반응형
728x90
반응형
728x90
반응형
728x90
반응형

+ Recent posts