베이즈 정리를 사용하면, '결과'로 부터 '원인'을 추정할 수 있다.
베이즈 정리는 '확률'에 대한 정리이다.
베이즈 정리 준비 단계로 확률을 다루는 수학의 기본을 다시 확인해 보자.
확률이란 '어떤 일 또는 사건이 일어나기 쉬운 정도'를 나타내는 수치이다. 확률은 0에서 1까지의 값을 취하며, 1에 가까울수록 그 사건이 확실하게 일어나는 것을 의미한다.
A라는 사건이 일어날 확률은 P(A)로 나타낸다.
'조건부 확률'이란?
조건부 확률이란 '어떤 조건을 바탕으로 다른 사건이 일어날 확률'을 말한다.
예를 들어, '52장의 트럼프 카드에서 뽑은 1장이 하트일 때, 그것이 K일 확률' 같은 것이고, P(K|하트) 로 나타낸다.
{A가 일어났을 때 B가 일어날 확률} = {A와 B가 동시에 일어날 확률} / {A가 일어날 확률}
P(B|A) = P(A∩B) / P(A)
'베이즈 정리'란?
'복통에 걸린 원인을 알고 싶다', '성공한 요인은 무엇일까?' 등과 같이 어떤 결과가 있을 때 무엇이 원인이었는지를 알고 싶은 일은 흔히 있다. 그럴ㄸ 때 도움이 되는 도구가 베이즈 정리이다. 이를 이용하면 결과의 배후에 있는 원인을 찾아낼 수 있다.
조건부 확률을 사용하면, '원인 A가 일어났을 때 결과 B가 일어날 확률'은 P(B|A)로 나타낼 수 있다. 한편 베이즈 정리는 원인과 결과의 순서를 거꾸로 한 P(A|B)를 구하는 정리이다. 이것은 '결과 B가 있을 때, 그것이 원인 A에 의한 것일 확률'을 의미한다.
베이즈 정리를 사용해 구한 확률은 시간을 거스르는 것처럼 해서 결과에서 원인을 추정하는 확률이라 할 수 있다. 이 점에서 베이즈 정리에 근거한 베이즈 통계학에서는 이 확률을 가리켜 '역확률'이라고 부르기도 한다.
P(원인 A | 결과 B) = P(원인 A) x P(결과 B | 원인 A) / P(결과 B)
여기서, P(원인 A | 결과 B)를 사후 확률, P(원인 A) 을 사전 확률이라고 한다.
P(결과 B)는 A 뿐만 아니라 A이외의 원인에 의해 결과 B가 일어날 확률도 모두 계산하고 그들을 모두 더해 얻어진다.
라플라스에 의해 '베이즈 정리'는 확률론의 기초가 되었다.
확률에 대한 수학적으로 생각하는 '확률론'의 기원은 17세기 도박 연구였다. 확률론의 창시자는 블레즈 파스칼(1623-1662)와 피에르 드 페르마(1607-1665)이고, 확률론을 확립한 인물이 수학자이자 천문학자이자 정치가였던 시몽 라플라스(1749-1827)였다. 나폴레옹은 사관학교 수학교수였던 라플라스에게 수학의 재능을 인정받아 사관학교 입학을 허가 받았다.
라플라스가 지적한 '이유 불충분의 원리'
'주사위를 1회 던져서 1의 눈이 나올 확률은? '
이렇게 질문을 받으면 우리는 '1/6'이라고 답한다. 특정한 눈이 나오기 쉽다고 간주할 충분한 이유가 없으면 어떤 눈이 나올 확률은 모두 같다. 이것으 '이유 불충분의 원리'라고 하며, 확률론의 기초 가운데 하나이다. 이 원리를 라플라스가 최초로 고안항였다.
'불확실'한 현실에서는 특히 확률론이 필요
라플라스는 1814년에 출판한 <확률의 철학적 시론>에서 이렇게 말했다.
'어떤 시점에서 자연을 움직이는 힘과 구성물의 상태 모두를 알고 있는 지서이 있다면,
그 지성에게는 불확실한 것이 아무것도 없고 과거와 미애를 모두 꿰뚫어볼 수 있을 것이다.'
이 지성을 '라플라스의 악마'라고 부르기도 한다. (라플라스 자신은 악마라는 말을 사용하지 않았다.)
현실의 인간 주위에는 불확실한 일들이 매우 많으며 과거와 미래 모두를 알아차리기는 어렵다. 그러므로 라플라스는 확률론이 더욱 필요하다고 말하고 싶었는지도 모른다.
라플라스는 이 책에서 6가지 원리를 제시했다. 거기에는 '이유 불출분의 원리', '덧셈 정리', '곱셈 정리' 등도 들어있다.
마지막 제6원리는 '관찰된 이에 여러가지 원인이 생각될 때, 각각의 확률을 구하는 원리'였다. 이것이 베이즈 정리이다.
라플라스는 베이즈 정리를 확률론의 기초 원리로 자리 잡게 한 것이다. 최초의 발견자를 존중해 ' 베이즈 정리'라고 부르고 있지만, 라플라스야 말고 이 정리의 확립에 가장 크게 공한한 수학자이다.