728x90
반응형

베이즈 갱신은 실종된 항공기나 선박의 수색에도 위력을 발휘한다. 

 

비행 기록 장치는 어디에 가라앉았는가? 

2009년 6월 1일 브라질 리우데자네이루를 이륙한 에어프랑스 447편이 프랑스 파리로 향하다가 대서양에 추락하였다. 승무원과 승객 288명이 모두 사망하였는데, 기체 일부는 곧 발견되었지만 비행 기록장치인 블랙박스는 발견되지 않은채 수색은 중단되었다. 

이 블랙박스 장치가 가라앉은 해저의 위치는 다음해의 재수색에서 드디어 특정되었다. 이 재수색에 사용된 방법이 베이즈 갱신이었다.

 

베이즈 갱신을 상요해 수색범위를 정한다

블랙박스가 가라앚았을 가능성이 있는 해저를 복수의 범위로 나눈다. 그리고 각각의 범위마다 블랙박스의 발견 사전확률을 설정한다. 주관적으로 설정해도 무관하다. 

그리고, 사전 확률이 가장 큰 범위를 수생한다. 수색은 완전하지 않으며, 만약 거기에 가라앉았다고 해도 일정한 확률로 놓치게 된다. 그러할지라도 '그 범위를 일단 수색했어도 발견되지 않았다'는 새로운 결과가 나온다. 이 새로운 결과를 사용해 각 범위의 발견 확률을 베이즈 갱신한다.  이렇게 해서 얻은 각 범위의 발견 확률(사후확률)은 수색 결과가 가미되어 있는 만큼 최초의 사전확률보다 신회할 수 있을 것이다. 

그리고, 새롭게 발견 확률이 가장 커진 범위를 수색한다. 이 수색에서 발견되지 않아도 그 결과를 사용해 베이즈 갱신을 한다. 이 방법을 사용하면 다음에 어떤 범위를 수색해야 할지를 합리적으로 결정할 수 있다. 

에어프랑스 447편의 블랙박스가 가라앉은 해저의 범위는 이 방법으로 특정되었고, 블랙박스는 드디어 발견, 회수 되었다. 

 

베이즈 수색

베이즈 갱신을 사용한 이 방법을 '베이즈 수색'이라고 하고 과거에도 잠수함 등의 수색에 사용되었다.  

728x90
반응형
728x90
반응형

'늑대가 왔다'라고 외치는 소년을 과연 믿을 수 있을까? 

어느 마을에 양치기 소녀이 있었다. 소년은 심심한 나머지, '늑대가 왔다'라고 거짓말을 해서 마을 사람들을 불러 모았다. 마을 사람들은 연장을 들고 달려왔지만 장난이라는 것을 알고는 웃으면서 돌아갔다. 소년은 여러번 거짓말을 해서 마을 사람들을 속였다. 

어느 날 소년 앞에 정말로 늑대가 나타났다. 소년은 '늑대가 왔다'고 외쳤지만, 마을 사람들은 '더 이상은 속지 않는다'며 소년을 도우러 가지 않았다. 소년은 양들을 모두 잃고 말았다. 

 

이솝 우화 <양치기와 늑대> 이야기는 베이즈 갱신을 생각할 수 있다

 

소년이 '거짓말쟁이'일 확률을 생각해 보자

베이즈 정리를 이용해서 이 이야기를 생각해 보자. 마을 사람들은 처음에 소년을 신뢰하고 있었으므로, 소년이 거짓말쟁이일 확률은 0.1, 정직한 아이일 확률을 0.9로 하자(사전확률).

소년이 '늑대가 왔다'라고 외친 후 늑대가 발견될 확률을 0.8, 늑대가 도망가 버려 발견되지 않을 확률을 0.2라고 하자. 

한편, 소년이 거짓말쟁이라고 살지라도 실제로 늑대가 오면 '늑대가 왔다'라고 외치며 도움을 청하기 때문에, 소년이 거짓말쟁이일 때 늑대가 0.3의 확률로 발견된다고 하자. 

이때 소년이 거짓말쟁이일 확률(사후 확률)을 계산하면, 베이즈 정리로 부터 0.28이 된다. 소년이 거짓말쟁이일 확률은 사전확률 10%에서 28%로 높아진 셈이다. 실은 베이즈 통계에서는 이 확률의 변화가 매우 중요하다. 

 

 

사후 확률을 구하면, 

P(거짓 | 미발견)

=  P(거짓) x P(미발견 | 거짓)  /  P(미발견) 

=  P(거짓) x P(미발견 | 거짓)  /  { P(거짓) x P(미발견 | 거짓) + P(정직) x P(미발견 | 정직) 

=     0.1   x   0.7    /  {0.1  x  0.7  + 0.9  x  0.2}

=  0.28

P(정직 | 미발견) 

=  0.72

 

새로운 결과가 나올 때 마다 '거짓말쟁이일 확률'은 갱신된다

늑대가 발견되지 않아 마을 사람들의 도움은 허탕이 된다. 소년이 거짓말쟁이일 확률은 최초의 10%에서 28%로 높아졌다. 이제 이 허탕치는 일이 2회, 3회 되풀이 되면 소년이 거짓말쟁이일 확률은 어떻게 바뀔까? 

 

5회의 허탕으로 소년은 거짓말쟁이로 확신

소년이 거짓말쟁이일 확률은 처음 10%에서

1회 허탕으로 28%,

2회 허탕으로 57.6%,

3회 허탕으로 82.7%,

4회 허탕으로 94.3%,

5회 허탕으로 98.3%까지 상승한다.

이제 마을 사람들은 결국 소년은 거짓말쟁이라고 확신하게 된다. 다음에 '늑대가 왔다'는 말을 들어도 소년을 도우러 가지 않을 것이다. 

 

베이즈 갱신

이처럼 어떤 일이 일어날 때 마다 사후 확률은 차츰 갱신(업데이트)되어 같다. 이것을 '베이즈 갱신'이라고 한다. 최초의 사전확률이 설령 개개관성이 부족한 것이었다고 해도, 베이즈 갱신을 거듭함으로써 얻는 사후 확률은 차츰 신뢰할 수 있는 것이 되어 간다. 

 

6회째 늑대가 실제로 나타나면?

그런데 5회째 허탕을 친 뒤 6회째에 녹대가 실제로 나타났다고 가정하자. 이 때 소년이 거짓말쟁이일 확률이 98.3%에서 95.6%로 내려간다. 계속해서 늑대가 다시 나타나면, 사후 확률은 89.1%가 되지만, 여전히 높은 상태이다. 거짓말쟁이일 확률이 높아진 뒤에는, 늑대가 한번이나 두번 실제로 나타났다고 해서 소년이 정직한 아이일 확률이 바로 높아지는 것은 아니다. 

 

늑대와 양치기 소년 증후군

미국의 수학자이자 정치학자인 앨버트 월스테터(Albert Wohlstetter, 1913-1997)는 여러 번의 경고에 대해 둔감해지는 경향을 '늑대와 양치기 소년 증후군'이라고 하면서 제 2차 세계 대전 때 미국이 일본군의 진주만 공격을 예측하지 못했던 원인이라고 했다. 

 

 

 

 

 

728x90
반응형
728x90
반응형

민감도 99% 검사에서 '양성'으로 판정되면 실제로 감염되었을까? 

감염자 100명에 대해 99명을 올바로 양성으로 판정

인구 10만 명당 100명의 감염자가 존재하는 감염증이 있다. 어떤 감염 검사를 했을 때 감염되었을 경우에는 '양성', 감염되지 않았을 경우에는 '음성'이라고 판정된다. 

 

단, 이 감염 검사에는 오류가 항상 따라 다닌다. 실제로는 감염되지 않은 100명의 비감염자가 이 검사를 받으면 97명은 올바로 음성으로 판정된다(진짜 음성). 그러나, 3명은 양성으로 잘못 판정된다(가짜 양성). 이것을 전문용어로 '특이도 97%'라고 한다. 

한편, 실제로 감염된 100명의 감염자가 이 검사를 받으면 99명은 올바로 양성으로 판정된자(진짜 양성). 그러나 1명은 음성으로 잘못 판정된다(가짜 음성). 이것을 '민감도 99%'라고 표현한다.

특이도 감도 개념은 아래 링크 참조

https://aeir.tistory.com/entry/%ED%86%B5%EA%B3%84-%EC%98%A4%EC%B0%A8%ED%96%89%EB%A0%AC-confusion-matrix

 

'양성'으로 판정되었다면 실제로 감염되었을 확률은?

당신이 이 검사를 받았더니 '양성'이라고 판정되었다. 이때 당신이 실제로 감염되었을 확률은 어느 정도일까? '민감도99%

의 검사'에서 양성이라고 판정되었다면 거의 확실하게 감염되었다고 생각하기 쉽다. 그러나, 실제로 계산해 보면 그 생각은 잘못된 생각이다. 

 

 

베이즈 정리를 사용하면, '실제 감염되었을 확률'을 구할 수 있다. 

10만 명이 검사를 받으면 몇 사람이 양성으로 판정될까?

10만 명 가운데 실제로 감염자는 100명이다. 이 100명이 검사를 받으면 99명이 올바로 양성이라고 판정된다(진짜 양성).

한편, 10만 명 중 실제로 비감염자는 9,900명이다. 이 사람들이 모두 검사를 받으면 그 중 3%에 해당하는 2,997명이 양성이라고 잘못 판정된다(거짓 양성).

따라서, 양성이라고 판정된 사람의 합계는 99명(진짜양성) + 2,997명(거짓 양성) = 3,096명이다. 

 

실제 감염되었을 확률은 약 3.2%

이 검사에서 양성으로 판정받은 3,096명 가운데 실제로 감염된 사람들은 진짜 양성인 99명이므로, 구하는 확률은 99/3,096 ~ 3.2%이다. 양성이라고 판정되었더라도 실제 감염되었을 확률은 불과 3% 정도이다. 

 

양성 판정으로 감염률은 0.1%에서 3.2%로 상승

원래 이 감염증의 감염률(사전 확률)은 0.1%로서, 검사를 받기 전 당신은 0.1%의 확률로 감염되어 있음을 의미했다.

그러나, 이 검사를 받고 양성이라고 판정된 결과, 당신의 감염확률은 약 3.2%(사후 확률)로 상승한다.

 

이처럼 어떤 일이 일어남에 따라 사전 확률은 사후 확률로 바뀐다. 이것이 베이즈 통계의 큰 특징이다. 

 

베이즈 정리를 사용해 계산해 보기

P(감염) = 1/1000 ;  P(비감염) = 999/1000

이제 양성이라고 판정될 확률은

    1) 감염되었을 때 P(양성 | 감염) = 99/100

    2) 감염되지 않았을 때 P(양성 | 비감염) = 3/100

 

따라서, 양성이라고 판정되었을 때 감염되었을 사후 확률은 다음과 같다. 

P(감염 | 양성) = 0.032

 

이러한 사후 확률을 구하는 방법은 

P(감염 | 양성)

= P(감염) x P(양성 | 감염) / P(양성) 

= P(감염) x P(양성 | 감염) / { P(감염) x P(양성| 감염) + P(비감염) x P(양성 | 비감염) }

= 1/1000  x  99/100        /  { 1/1000  x   99 /100      +      999/1000  x  3/100 }

= 99/3096

= 0.032 

 

 

 

재검사에서 '다시 양성'인 경우, 감염 확률은 어떻게 될까? 

당신은 이 검사에서 양성이라고 판정되었지만, 실제로 감염되었을 확류은 3.2%였다. 그런데 재검사를 받고 다시 양성으로 판정되었다고 하자. 이제 당신이 실제로 감염되었을 확률은 얼마일까? 

 

2회째도 양성이면 감염 가능성은 농후해 진다. 

처음 검사에서 양성이라 판정되었던 3,096명 가운데 실제로 감염자는 99명이다. 이 99명의 감염자가 재검사를 받으면 약 98명은 양성이라고 올바로 판정된다(진짜 양성). 한편, 3,096명 가운데 실제 비감염자는 2997명이었다. 이 2997명의 비감염자가 재검사를 받으면 그 3%에 해당하는 약 90명은 양성으로 잘못 판정된다(가짜양성).

 

따라서, 2회째 검사에서 다시 양성이라고 판정되는 사람의 수는 약 98명(진짜 양성) + 약 90명(가짜양성) = 188명이다. 

당신은 이 188명 중 1명이다. 

2회째 양성 판정을 받은 사람이 실제로 감염되었을 확률은 98/188 ~ 52%가 된다. 59%를 넘어 실제로 감염되었을 가능성이 커진다. 

베이즈 정리를 사용해 계산해 보기

앞의 계산 식에서 0.1%를 3.2%로 바꾸고 베이즈 정리를 사용해 계산하면 된다. 

 

P(감염) = 99/3096 ;  P(비감염) = 2997/3096

이제 양성이라고 판정될 확률은

    1) 감염되었을 때 P(양성 | 감염) = 99/100

    2) 감염되지 않았을 때 P(양성 | 비감염) = 3/100

 

따라서, 양성이라고 판정되었을 때 감염되었을 사후 확률은 다음과 같다. 

P(감염 | 양성) = 0.52

 

이러한 사후 확률을 구하는 방법은 

P(감염 | 양성)

= P(감염) x P(양성 | 감염) / P(양성) 

= P(감염) x P(양성 | 감염) / { P(감염) x P(양성| 감염) + P(비감염) x P(양성 | 비감염) }

=  99/3096  x  99/100        /  { 99/3096  x   99 /100      +     2997/3096  x  3/100 }

=  9801/18792

= 0.52 

728x90
반응형
728x90
반응형

오차행렬을 confusion matrix (혼동행렬) 

개발된 모델을 평가하기 위해서는 오차행렬을 사용한다. 오차행렬은 실제로 참인지 거짓인지, 예측을 긍정으로 했는지, 부정으로 했는지에 따라 네 개의 경우의 수로 구분한 표이다. 머신러닝 / 딥러닝 모델을 평가하는데 중요한 기준을 제공한다.

 

* 분류 기준은 예측값!

     참양성(TP)    :  예측이 참(양성)이고 실제값도 참(양성) 일치

     거짓양성(FP) : 예측이 참(양성)이고 실제값은 거짓(음성) 불일치

     거짓음성(FN) : 예측이 거짓(음성)이고 실제값은 참(양성) 불일치

     참음성(TN)    :  예측이 거짓(음성)이고 실제값도 거짓(음성) 일치

   

모델 예측 결과
(평가 대상) 

    참 (양성)  거짓 (음성)  


실제 측정 결과
(평가 기준)
참 (양성)  TP (참양성) FN (거짓음성)
거짓 (음성)  FP (거짓양성)
TN (참음성)

 

오차행렬은 모델 예측이 얼마나 잘된 예측인지를 판단하는 데 중요한 기준을 제공한다. 오차행렬로부터 모델의 우수성을 평가하는 아래와 같은 여러 지표를 도출할 수 있다.

 

Accuracy (정확도 또는 정분류율)

전체 데이터중 정확하게 예측한 데이터의 비율

(TP + TN) / (TP + FP +TN + FN)  

 

Error Rate (오분류율)

전체 데이터 중 잘못 예측한 데이터의 비율, 1- accruracy

(FP + FN) / (TP + FP +TN + FN)  

 

Precision (정밀도)

참이라고 예측한 것(TP + FP)  중 실제 참(TP)인 정도

TP / (TP + FP)   

 

Recall (재현율) or Sensitivity (민감도) 또는 참 긍정률

실제값이 참인 관측값(TP+FN) 중 참이라고 바르게 예측(TP) 한 정도

TP / (TP + FN)

 

Specificity (특이도) 

실제값이 거짓인 관측값(FP + TN) 중 거짓으로 바르게 예측(TN)한 정도

TN / (FP + TN)  : 실제 음성인데 양성으로 분류된 비율 (참음성의 비율)

 

FP-Rate (거짓 긍정률)

실제값이 거짓인 관측값 중 참이라고 잘못 예측(FP)한 정도1-특이도

FP / (TN + FP) 

F1 score

2 / {1/정밀도 + 1/재현율}

 

정밀도와 민감도(재현율)의 조화평균으로 0~1 사이 값을 가짐

정밀도와 민감도 사이의 trade-off로서, 정밀도가 증가하면 민감도 감소, 민감도 증가하면 정밀도 감도

F-score 는 정밀도와 민감도가 한쪽으로 치우치지 않을 때 높은 값을 가짐

정밀도, 민감도, F-socre 를 종합적으로 분석하여 모델 성능을 판단해야 함. 

 

 

 

 

 

728x90
반응형
728x90
반응형

당신 앞에 놓인 것은 항아리 A일까, B일까? 

항아리 A와 항아리 B에는 각각 붉은색과 푸른색 구슬이 각각 20개씩 들어있다.  항아리 A에는 붉은 구슬 4개와 푸른 구슬 16개, 항아리 B에는 붉은 구슬 12개, 푸른 구슬 8개가 들어있다. 

 

눈을 가리고 어떤 사람이 항아리를 당신 앞에 둔다고 하자. 당신이 항아리에 손을 넣고 잘 저은 후, 1개의 구슬을 꺼냈더니 붉은 구슬이었다. 이때 당신 앞에 놓인 것은 항아리 A일까 항아리 B일까? 

 

이 문제는 붉은 구슬을 꺼냈다는 겨로가로 부터 원인(=어느 항아리가 놓였을까)을 추정하는 문제라고 생각할 수 있다. 베이즈 정리를 사용해 그 확률을 추정해 보자. 

 

베이즈 정리를 이용하면, '역확률'을 구할 수 있다. 

당신 앞에 항아리 A나 B가 놓일 확률은 공평하게 P(A) = P(B) =1/2 라고 하자. 이같이 판단 정보가 없을 때 평등하게 확실할 것 같다고 간주해 설정한 확류을 '사전 확률'이라고 한다. 

 

A가 놓였을때 붉은 구슬을 꺼낼 조건부 확률 P(red | A)를 구해보자.

A에는 구슬이 20개 있고 그 가운데 4개가 붉은색이므로 P(red | A) = 4/20 = 1/5 이다.

마찬가지로 B가 놓였을 때 붉은 구슬을 꺼낼 조건부 확률운 P(red | B) = 12/20 = 3/5 이다.

 

이들을 베이즈 확률식에 적용하면,

붉은 구슬을 꺼냈을 때 A가 놓였을 확률(즉 붉은 구슬을 꺼냈을 때의 사후확률)은 P(A | red)

= P(A) x P(red | A) / P(red)

= P(A) x P(red | A) / (P(A) x P(red | A) + P(B) x P(red | B)

1/2  x      1/5      / ( 1/2   x       1/5     + 1/2   x   3/5  ) 

= 1/4 = 25% 

붉은 구슬을 꺼냈을 때 B가 놓였을 확률(즉 붉은 구슬을 꺼냈을 때의 사후확률)은 P(B | red)

= 1 - P(A | red) = 1 - 1/4 = 3/4 = 75%

 

같은 방법으로, P(A | blue) 와 P(B | blue)도 구할 수 있다.

 

728x90
반응형
728x90
반응형

베이즈 정리를 사용하면, '결과'로 부터 '원인'을 추정할 수 있다.

베이즈 정리는 '확률'에 대한 정리이다. 

베이즈 정리 준비 단계로 확률을 다루는 수학의 기본을 다시 확인해 보자. 

확률이란 '어떤 일 또는 사건이 일어나기 쉬운 정도'를 나타내는 수치이다. 확률은 0에서 1까지의 값을 취하며, 1에 가까울수록 그 사건이 확실하게 일어나는 것을 의미한다. 

A라는 사건이 일어날 확률은 P(A)로 나타낸다. 

 

'조건부 확률'이란?

조건부 확률이란 '어떤 조건을 바탕으로 다른 사건이 일어날 확률'을 말한다. 

예를 들어, '52장의 트럼프 카드에서 뽑은 1장이 하트일 때, 그것이 K일 확률' 같은 것이고, P(K|하트) 로 나타낸다. 

{A가 일어났을 때 B가 일어날 확률} = {A와 B가 동시에 일어날 확률} / {A가 일어날 확률}

P(B|A) = P(A∩B) / P(A)

 

'베이즈 정리'란?

'복통에 걸린 원인을 알고 싶다', '성공한 요인은 무엇일까?' 등과 같이 어떤 결과가 있을 때 무엇이 원인이었는지를 알고 싶은 일은 흔히 있다. 그럴ㄸ 때 도움이 되는 도구가 베이즈 정리이다. 이를 이용하면 결과의 배후에 있는 원인을 찾아낼 수 있다. 

조건부 확률을 사용하면, '원인 A가 일어났을 때 결과 B가 일어날 확률'은 P(B|A)로 나타낼 수 있다. 한편 베이즈 정리는 원인과 결과의 순서를 거꾸로 한 P(A|B)를 구하는 정리이다. 이것은 '결과 B가 있을 때, 그것이 원인 A에 의한 것일 확률'을 의미한다. 

베이즈 정리를 사용해 구한 확률은 시간을 거스르는 것처럼 해서 결과에서 원인을 추정하는 확률이라 할 수 있다. 이 점에서 베이즈 정리에 근거한 베이즈 통계학에서는 이 확률을 가리켜 '역확률'이라고 부르기도 한다. 

 

P(원인 A | 결과 B) = P(원인 A) x P(결과 B | 원인 A) / P(결과 B)

여기서, P(원인 A | 결과 B)를 사후 확률,  P(원인 A) 을 사전 확률이라고 한다. 

P(결과 B)는 A 뿐만 아니라 A이외의 원인에 의해 결과 B가 일어날 확률도 모두 계산하고 그들을 모두 더해 얻어진다. 

 

 

라플라스에 의해 '베이즈 정리'는 확률론의 기초가 되었다. 

확률에 대한 수학적으로 생각하는 '확률론'의 기원은 17세기 도박 연구였다. 확률론의 창시자는 블레즈 파스칼(1623-1662)와 피에르 드 페르마(1607-1665)이고, 확률론을 확립한 인물이 수학자이자 천문학자이자 정치가였던 시몽 라플라스(1749-1827)였다. 나폴레옹은 사관학교 수학교수였던 라플라스에게 수학의 재능을 인정받아 사관학교 입학을 허가 받았다.

라플라스가 지적한 '이유 불충분의 원리'

'주사위를 1회 던져서 1의 눈이 나올 확률은? '

이렇게 질문을 받으면 우리는 '1/6'이라고 답한다. 특정한 눈이 나오기 쉽다고 간주할 충분한 이유가 없으면 어떤 눈이 나올 확률은 모두 같다. 이것으 '이유 불충분의 원리'라고 하며, 확률론의 기초 가운데 하나이다. 이 원리를 라플라스가 최초로 고안항였다. 

 

'불확실'한 현실에서는 특히 확률론이 필요

라플라스는  1814년에 출판한 <확률의 철학적 시론>에서 이렇게 말했다. 

 

'어떤 시점에서 자연을 움직이는 힘과 구성물의 상태 모두를 알고 있는 지서이 있다면,

그 지성에게는 불확실한 것이 아무것도 없고 과거와 미애를 모두 꿰뚫어볼 수 있을 것이다.'

 

이 지성을 '라플라스의 악마'라고 부르기도 한다. (라플라스 자신은 악마라는 말을 사용하지 않았다.)

현실의 인간 주위에는 불확실한 일들이 매우 많으며 과거와 미래 모두를 알아차리기는 어렵다. 그러므로 라플라스는 확률론이 더욱 필요하다고 말하고 싶었는지도 모른다.

 

라플라스는 이 책에서 6가지 원리를 제시했다. 거기에는 '이유 불출분의 원리', '덧셈 정리', '곱셈 정리' 등도 들어있다.

마지막 제6원리는 '관찰된 이에 여러가지 원인이 생각될 때, 각각의 확률을 구하는 원리'였다. 이것이 베이즈 정리이다. 

 

라플라스는 베이즈 정리를 확률론의 기초 원리로 자리 잡게 한 것이다. 최초의 발견자를 존중해 ' 베이즈 정리'라고 부르고 있지만, 라플라스야 말고 이 정리의 확립에 가장 크게 공한한 수학자이다. 

 

728x90
반응형
728x90
반응형

18세기의 목사 토머스 베이스는 확률에 대해 무엇을 생각했나?

영국 런던 남동쪽 턴브리지웰스 Tunbridge Wells 라는 마음에 토마스 베이즈(Thomas Bayes, 1702-1761)는 개신교 목사로 활동한 사람이다.  영국 에든버러 대학에서 논리학과 신학을 공부했다. 목사가 된 베이즈는 아이작 뉴턴(1642-1727)의 신봉자로 수학자로도 활동했다. 뉴턴이 발견한 미적분법(유율법)에는 엄밀성이 결여되어 있다는 비판이 일어날 때, 베이즈는 유율법을 옹호했다. 

 

베이즈 정리의 원형이 되는 개념은?

베이즈는 특히 확률 문제 에 흥미를 가졌고, 수학자로서 남긴 유일한 논문에 베이즈 정리의 원형이 되는 확률 개념이 적혀있다. 

"사물의 원인이 불명인 경우는 '하나가 아니라, 다수의 원인이 작용하고 있다.'고 가정하자. 그리고 다수의 원인에 대해 확률을 생각하고, 관찰된 결과를 사용해서 해결하면 된다." 

이 문장의 '원인에 대한 확률'에 주목한 그의 사고방식이 오늘 날 베이즈 통계의 기초가 되었다. 

 

베이즈 사후 친구가 논문을 세상에 알림

베이즈 사후 친구인 리처드 파라이스(Richard Price, 1723-1791)가 논문을 1763년에 출판하였다. 그리고 프랑스 수학자 피에르 시몽 라플라스(1749-1827)에 의해 베이즈 정리는 확률론의 기초로 자리 잡았다. 

 

 

728x90
반응형
728x90
반응형

어떤 가족의 자녀 2명이 있다. 그 가운데 적어도 1명은 아들이다. 이때 2명 모두 아들일 확률은?

미국 수학자 마틴 가드너(Martin Gardener, 1914~2010)가 1959년 Scientific American 저널의 칼럼에 실린 문제

직감적으로는 1/2로 생각되지만, 

1명이 아들이이라고 알려져 이으므로, 2명 모두 아들인지 아닌지는 다른 1명이 아들인지 딸인지로 정해진다. 아들인지 딸인지 각각의 확률은 1/2이다. 

하지만, 가드너의 답은 1/3 이었다. 

왜 직감과 다른 답이 나올까? 

네 가지 경우로 나누어 생각해 보자

'적어도 1명은 아들'이라는 조건이 없으면, '형-남동생', '오빠-여동생', '누나-남동생', '언니-여동생' 의 4가지 경우를 생각할 수 있다. 어느 경우도 확률은 같다. 

여기서, '적어도 1명은 아들'이라는 정보가 주어졌으므로, '언니-여동생'의 경우는 제외되고, 남는 것은 3가지 경우 뿐이다. 

이렇게 남은 3가지 경우 가운데 2명 모두 두 아들인 것은 '형-남동생'의 1가지 경우 밖에 없다. 따라서, 구하는 확률은 1/3이다. 

 

728x90
반응형
728x90
반응형

가설검정의 기본원리

가설검정(hypothesis testing) : 표본을 기초로 얻은 검정통계량의 관찰값을 이용하여 모집단분포 또는 모수에 대해 이미 설정된 가설에 대한 타당성을 판정하는 과정

표본에 근거하여 타당성을 조사한 결과 이미 설정한 가설이 거짓으로 판정되면 그 가설을 기각(reject)한다 하고,

설정한 가설이 타당성이 있거나 부정하지 못하면 그 가설을 채택(accept)한다고 한다.

 

거짓이 명확히 규명될 때까지 참인 것으로 인정되는 모수에 대한 가설, 반증적 방법으로 증명하기 위해 기각할 것을 바라면서 설정하는 가설을 귀무가설(null hypothesis)이라 하고 H0으로 나타낸다.

귀무가설과 대립되거나 이 가설을 부정하는 가설로서 강력한 증거로 입증하고자 하는 가설을 대립가설(alternative hypothesis)이라 하고 H1로 나타낸다.

 

검정통계량(testing statistic) : 두 가설의 진위여부를 판정하기 위해 표본을 이용하여 얻은 통계량

기각역(critical region): 귀무가설 H0 을 기각시키는 검정통계량의 관찰값이 포함되는 영역

채택역(acceptane region): 귀무가설을 기각시키지 못하는 검정통계량의 관찰값이 포함되는 영역

 

 

 

 

 

 

 

 

모평균의 검정

 

 

 

728x90
반응형
728x90
반응형

1. 가설검정의 기본원리 

 

표본을 기초로 얻은 검정통계량의 관찰값을 이용하여 모집단분포 또는 모수에 대해 이미 설정된 가설에 대한 타당성을 판정하는 과정을 가설검정(hypothesis testing)이라 한다.

표본에 근거하여 타당성을 조사한 결과 이미 설정한 가설이 거짓으로 판정되면 가설을 기각(reject)한다 하고, 설정한 가설이 타당성이 있거나 부정하지 못하면 가설을 채택(accept)한다고 한다.

 

거짓이 명확히 규명될 때까지 참인 것으로 인정되는 모수에 대한 가설, 반증적 방법으로 증명하기 위해 기각할 것을 바라면서 설정하는 가설을 귀무가설(null hypothesis)이라 하고 H0으로 나타낸다.

귀무가설과 대립되거나 이 가설을 부정하는 가설로서 강력한 증거로 입증하고자 하는 가설을 대립가설(alternative hypothesis)이라 하고 H1로 나타낸다.

 

두 가설의 진위여부를 판정하기 위해 표본을 이용하여 얻은 통계량을

검정통계량(testing statistic)이라 한다.

귀무가설 H0 을 기각시키는 검정통계량의 관찰값이 포함되는 영역을

기각역(critical region), 귀무가설을 기각시키지 못하는 검정통계량의 관찰값이 포함되는 영역을 채택역(acceptane region)이라 한다.

 

귀무가설의 진위 여부를 판정하기 위해 추출된 표본으로부터 얻은 정보를 기초로 두 가지 가설 중에서 어느 하나를 선택하므로 오류가 발생할 수 있다.

 

 

 

 

 

 

 

 

2. 모평균의 검정

 

 

 

 

3. 모비율의 검정

 

4. 모분산의 검정

 

 

5. 적합도 검정

 

 

 

 

6. 독립성 검정

 

 

 

 

728x90
반응형

+ Recent posts