겨울은 바이칼호 부근에 정체하고 있는 시베리아 고기압의 영향을 받는 계절이다. 시베리아 고기압의 중심은 여러 개로 분리하여 분석하는 것보다 주변에 분포한 관측 값을 고려하여, 하나의 중심을 가진 고기압 으로 분석·묘화하는 것이 좋다. 이 지역은 1500m 이상의 고원지대이기 때문에 바람장, 기압값에 의존한 분석은 중요치 않다. 아래 그림 3은 24시간 간격의 지상일기도 분석결과로서, 수정이 필요한 일기도(a)와 제대로 묘화된 일기도(b)의 예를 보여준다.
그림 3(a)의 경우 몽골서쪽지역에 모든 기압 값을 고려하여 고기압을 3개로 분리시켰다. 3개로 분리한 결과 고기압 주변의 등압선 굴곡이 커지고, 정체된 시베리아 고기압이 보이지 않고 고립된 약한 고기압으로 보인다. 티베트 고원지역은 기압값이 없는데도 불구하고 매우 강한 기압경도를 보이는 저기압을 묘화하였다. 이렇게 묘화한 결과 고기압과 저기압 사이에 등압선 간격이 매우 넓은 지역이 있는가 하면, 바로 인근에 매우 조밀한 지역도 나타났다.
그림 3(b)는 24시간 후 분석된 일기도인데 정체된 시베리아 기단을 하나의 고기압으로 분석하여 기단의 세력이 강하고 범위가 넓어 보이며, 굴곡이 덜한 원형에 가까운 등압선으로 묘화하였다. 남쪽에 위치한 저압부도 원형으로 저기압 중심을 그리지 않아 그림 3(a)에 비해 기압경도력이 일정하여 공기의 흐름이 잘 묘화되었으며, 특히 겨울철 가장 뚜렷한 시베리아 고기압의 세력이 남쪽과 동쪽으로 뻗여 있는 모습이 잘 묘화되었다
아래 그림 4는 겨울철 우리나라를 자주 통과하는 중규모 저기압(발해만 저기압)에 의한 일기도 분석결과이다. 겨울철 차가운 공기가 지배하는 가운데, 더 차가운 공기가 이동하면서 하층대기나 지상에 기압골을 형성하여 우리나라 서쪽지방에 눈이 내린다. 전선면의 고도가 낮아 그림 4(a)와 같이 500hPa에서는 서풍형의 바람과 동서로 평행한 기온구조를 보이나, 850hPa에서는 그림 4(b)와 같이 전선이 보이며, 전선의 서쪽은 북서류가 동쪽은 남서류가 나타난다.
그림 4(c)와 같이 지상일기도에서 저기압 중심이 나타나기도 한다. 그림 4(d)는 이번 사례에 대한 간단히 요약한 것으로서, 그림 4(b)의 A와 B를 자른 연직 모식도이다.
아래 그림 1은 아시아 일기도 (지상~100hPa). 내부 사각형 영역은, 3시간 지상일기도 분석시 사용.
105°E 서쪽, 1500m 이상의 고지대 분포. 티베트고원 해발고도 > 3000m
몽골 고원 지대와 티베트고원의 해발 고도는 각각 850hPa, 700hPa 이상의 고도에 해당.
이 고도보다 낮은 고도의 일기도를 분석할 경우, 바람방향, 기온, 기압 등이 일기도 상에서 불연속됨.
따라서, 지형과 기후적인 측면을 고려한 분석과 일기도를 작성해야.
아래 그림 2는 겨울(1월, 상)과 여름철(12월, 하)의 전지구 월평균 지상일기도.
유라시아 대륙은 1월에 시베리아 고기압이, 7월에는 열 저기압의 세력이 뚜렷.
1월에 지표 냉각에 의한 시베리아 고기압이 유라시아 대륙에 광범위하게 위치, 상대적으로 해상에는 알류산 저기압이 발달. 알류산 저기압은 60°N 한대전선대(고위도 저압대)로서 지구대기대순환에 의해 발생하는 저기압이지만, 겨울철 아시아 대륙의 고기압 발달에 따라 상대적으로 더욱 발달하고 규모가 커진다. 이에 따라 30°N 부근의 북태평양 고기압은 동부 태평양으로 이동하고 범위도 축소된다.
북대서양에서도 비슷한 형태.
1월에 버뮤다 고기압은 아이슬란드 저기압의 세력에 밀려 동부 북대서양 해상에서 축소된다.
7월에 유라시아 대륙에 광범위하게 열 저기압이 자리잡고, 상대적으로 북태평양에 고기압이 발달하고 규모도 커진다. 북대서양도 유사하게 버뮤다 고기압이 발달한다.
겨울(1월)
여름(7월)
그림 2. 겨울(1월, 상)과 여름(7월, 하) 전지구 평균 지상일기도. 주황색상자:발달, 하늘색상자:축소(Ahrens and Samson, 2011)
계절별 일기도 분석
1) 겨울철
겨울은 바이칼호 부근에 정체하고 있는 시베리아 고기압의 영향을 받는 계절.
시베리아 고기압의 중심은 여러 개로 분리하지 않고, 주변 관측 값을 고려하여, 하나의 중심을 가진 고기압 으로 분석·묘화한다.이 지역은 1500m 이상 고원지대이기 때문에 바람장, 기압값에 의존해 분석하지 않는다.
아래 그림 3은 하루(24시간)간격의 지상일기도 분석결과.
그림 3(a): 몽골서쪽지역 모든 기압값을 고려하여 고기압을 3개로 분리. 그 결과 고기압 주변의 등압선 굴곡이 커지고, 정체된 시베리아 고기압이 보이지 않고 약한 고기압으로 보인다. 티베트 고원지역은 기압값이 없는데도 불구하고 매우 강한 기압경도를 보이는 저기압으로 묘화된다.
그림 3(b):정체된 시베리아 기단을 하나의 고기압으로 분석하여기단의 세력이 강하고 범위가 넓어 보이며, 굴곡이 덜한 원형에 가까운 등압선으로 묘화됨. 남쪽에 위치한 저압부도 그림 3(a)에 비해 기압경도력이 일정하여 공기의 흐름이 잘 묘화되었고, 특히 겨울철 가장 뚜렷한 시베리아 고기압의 세력이 남쪽과 동쪽으로 뻗여 있는 모습이 잘 묘화됨.
그림 3. 지상 편집 일기도 분석 예. (a)는 수정이 필요한 예, (b)는 잘된 분석의 예
아래 그림 4는 겨울철 우리나라를 자주 통과하는 중규모 저기압(발해만 저기압)에 의한 일기도 분석결과.
겨울철 차가운 공기가 지배하는 가운데, 더 차가운 공기가 이동하면서 하층대기나 지상에 기압골을 형성하여 우리나라 서쪽지방에 눈이 내린다.
전선면의 고도가 낮아그림 4(a)와 같이 500hPa에서는 서풍형의 바람과 동서로 평행한 기온구조를 보이나, 그림 4(b)와 같이 850hPa에서는 전선이 보이며, 전선의 서쪽은 북서류가 동쪽은 남서류가 나타난다.
그림 4(c)와 같이 지상일기도에서 저기압 중심이 나타남.
그림 4(d)는 이번 사례에 대한 간단히 요약한 것으로서, 그림 4(b)의 A와 B를 자른 연직 모식도이다.
그림 4. 2012년 1월 3일 00UTC 일기도와 우리나라 주변((b)의 A와 B) 모식도(Ahrens and Samson, 2011)
2) 봄철
봄철에는 중국을 중심으로 몽골 남쪽까지 지표가열로 열 저기압이 발생하는 시기
이 시기에 주의하여 분석할 요소로는 열 저기압, 전선저기압, 북태평양 고기압 등.
열 저기압
지표가열로 생성된 저기압으로서 이동하지 않는 정체성 저기압.
대륙의 얼었던 땅이 녹는 사막과 황토고원지대에서 주변보다 기온이 높아져 열 저기압이 발생
이 저기압의 강한 상승 기류를 따라 모래와 먼지가 상층 대기로 불려 올라간 뒤, 상층의 강한 편서풍을 타고 우리나라로 이동해 오기도 하는데, 이를 황사라고 한다.
우리나라에 황사가 심하게 이동해 오는 경우는 대개 우리나라 북쪽을 지나는 저기압 후면에서 북서풍이 부는 기압패턴이 유지될 때. 한랭전선을 동반한 경우에 특히 황사가 심해진다.
아래 그림 5에서 2011년 4월 19일 00UTC에 850hPa에 중국과 몽골지역으로 온난이류가 강화되었다.
그림5(b): 0℃ 등온선이 우리나라에서 몽골 북서쪽까지 남에서 북으로 놓여있다. 티베트 고지대 저기압은 열저기압이고 정체성 저기압.
지상일기도(그림 5c)에서도 저기압 중심이 보인다.
열 저기압은 3일간 정체하다가, 상층의 온도골을 동반한 기압골이 서에서 동으로 이동하면서 이 열 저기압 상공을 지나갈 때, 연직으로 잘 발달된 전선 저기압이 발생한다. 이 전선저기압은 동서의 큰 온도 차이에 의해 빠르게 이동하면서 발달하는데 그림 6처럼, 500hPa에 한기를 동반한 기압골과 합쳐져서 연직으로 잘 발달된 저기압이 한반도를 통과하는 것을 볼 수 있다.
850hPa과 지상일기도에 저기압 중심이 보이며, 전선분석이 가능.
저기압 중심을 기준으로 전선분석을 하기 위해서는 뚜렷한 동서의 온도차이가 있어야 한다. 따라서, 전선분석하지 않는 경우:
1) 열저기압처럼 저기압 중심을 기준으로 주위가 모두 따뜻한 상태이거나, 해발고도가 높은 고지대일 경우
2) 상층 한랭 공기가 동반되어 연직으로 잘 발달된 구조가 아닐 경우.
그림 5. 2011년 4월 19일 00UTC(열 저기압 발달사례)
그림 6. 2011년 4월 22일 00UTC(전선 저기압 발달사례)
봄철은 상층은 아직 겨울철 패턴을 유지하고, 중국 대륙의 열적 가열은 강화되기 때문에 대기가 불안정한 시기. 상층의 강한 한기를 가진 공기가 우리나라 쪽으로 이동할 때, 저기압이 연직적으로 강하게 발달.
그림 7은 그림 6(c)와 같은 시각의 300hPa 일기도와 300hPa 부근과 지상의 모식도. 300hPa 일기도(그림7a)에서 기압골(trough)부근으로 남북의 고도경도가 크고, 100kts이상의 강풍 중심이 우리나라 부근에 위치. 제트기류의 중심이 위치하는 기압골을 중심으로 서쪽은 기류가 합류(confluence)하는 형태로 상층 수렴, 하층 발산, 동쪽은 기류가 분류(diffluence)되는 형태로 상층 발산, 하층 수렴. 그림 7(b): 지상과 상층과의 일기시스템 구조.
그림 6(c)의 지상일기도와 비교해 보면, 전선이 동반된 발달한 저기압은 서해상에 위치한 저기압과, 고기압은 몽골남부에 위치한 고기압과 일치. 동아시아 봄철은 중위도 파동에 따른 고·저기압 발달 이론이 잘 일치되는 계절.
(a) 2011년 4월 19일 00UTC 300hPa 일기도
(b) 3차원 모식도
그림 7. 2011년 4월 19일 00UTC 300hPa 일기도와 3차원 모식도
아래 그림 8에서 850hPa에 동중국해 부근에 위치한 정체성 고기압이다.
필리핀 고기압이라고 부르며, 2월부터 벵갈만부근과 인도차이나반도의 지표가열로 저압부가 형성됨에 따라 상대적으로 필리핀 부근해상에서 발생 하는 키가 작은 고기압.
2월 말에 필리핀 부근에 위치하다가 4월 초부터 동중국해 부근 까지 확장.
하층대기의 대륙과 해양의 비열차이에 의해 만들어지는 아열대 고기압
이 850hPa 고기압은 중국에서 이동성 고기압이 동중국해상으로 이동할 때 합쳐지면서 그림 8(a)와 같이 우리나라까지 고기압의 능이 확장된다. 이렇게 확장하면 고기압 가장자리를 따라 다량의 수증기가 포함된 온난한 기류가 우리나라로 유입. 서쪽에서 발달하는 저기압이 접근하면 많은 비.
(a) 2011년 4월 20일 00UTC
(b) 2011년 4월 21일 00UTC
(c) 2011년 4월 22일 00UTC
그림 8. 850hPa 일기도(검정색 선은 수정이 필요한 부분임)
[ 참고문헌 ] 홍성길, 1995: 기상 분석과 일기예보, 교학연구사 이우진, 2006: 일기도와 날씨해석, 광교이텍스 Ahrens. C. D. and P. Samson, 2011: Extreme weather and climate. printed in the United States of America. Hsu. H. -H., C. -T. Terng, and C. -T. Chen, 1999: Evolution of large-cale circulation and heating during the east transition of Asian summer monsoon. Journal of Climate, 12, 793-810. Samel. A. N., W. C. Wang, and X. Z. Liang, 1999: The monsoon rain band over China and relationships with Eurasian circulation. Journal of Climate, 12, 115-131. Bao. C. -L., 1987: Synoptic Meteorology in China. China ocean press. Beijing; p47-81.
Han. S. -U. and B. -Y. Byun, 2006: The existence and the climatological characteristics of the spring rainy period in Korea. International Journal of Climatology, 26, 637-654. Tian. S. -F. and T. Yasunari, 1998: Climatological aspects and mechanism of spring persistent rain over central China. Journal of the Meteorological Society of Japan, 76, 57-71. Matsumoto. J., 1992: The seasonal changes in Asian and Australian monsoon regions. Journal of the Meteorological Society of Japan, 70, 257-273. Djuric, D., 1994: Weather Analysis. Prentice Hall, Texas A&M university, p7-10
2009년 6월 1일 브라질 리우데자네이루를 이륙한 에어프랑스 447편이 프랑스 파리로 향하다가 대서양에 추락하였다. 승무원과 승객 288명이 모두 사망하였는데, 기체 일부는 곧 발견되었지만 비행 기록장치인 블랙박스는 발견되지 않은채 수색은 중단되었다.
이 블랙박스 장치가 가라앉은 해저의 위치는 다음해의 재수색에서 드디어 특정되었다. 이 재수색에 사용된 방법이 베이즈 갱신이었다.
베이즈 갱신을 상요해 수색범위를 정한다
블랙박스가 가라앚았을 가능성이 있는 해저를 복수의 범위로 나눈다. 그리고 각각의 범위마다 블랙박스의 발견 사전확률을 설정한다. 주관적으로 설정해도 무관하다.
그리고, 사전 확률이 가장 큰 범위를 수생한다. 수색은 완전하지 않으며, 만약 거기에 가라앉았다고 해도 일정한 확률로 놓치게 된다. 그러할지라도 '그 범위를 일단 수색했어도 발견되지 않았다'는 새로운 결과가 나온다. 이 새로운 결과를 사용해 각 범위의 발견 확률을 베이즈 갱신한다. 이렇게 해서 얻은 각 범위의 발견 확률(사후확률)은 수색 결과가 가미되어 있는 만큼 최초의 사전확률보다 신회할 수 있을 것이다.
그리고, 새롭게 발견 확률이 가장 커진 범위를 수색한다. 이 수색에서 발견되지 않아도 그 결과를 사용해 베이즈 갱신을 한다. 이 방법을 사용하면 다음에 어떤 범위를 수색해야 할지를 합리적으로 결정할 수 있다.
에어프랑스 447편의 블랙박스가 가라앉은 해저의 범위는 이 방법으로 특정되었고, 블랙박스는 드디어 발견, 회수 되었다.
베이즈 수색
베이즈 갱신을 사용한 이 방법을 '베이즈 수색'이라고 하고 과거에도 잠수함 등의 수색에 사용되었다.
어느 마을에 양치기 소녀이 있었다. 소년은 심심한 나머지, '늑대가 왔다'라고 거짓말을 해서 마을 사람들을 불러 모았다. 마을 사람들은 연장을 들고 달려왔지만 장난이라는 것을 알고는 웃으면서 돌아갔다. 소년은 여러번 거짓말을 해서 마을 사람들을 속였다.
어느 날 소년 앞에 정말로 늑대가 나타났다. 소년은 '늑대가 왔다'고 외쳤지만, 마을 사람들은 '더 이상은 속지 않는다'며 소년을 도우러 가지 않았다. 소년은 양들을 모두 잃고 말았다.
이솝 우화 <양치기와 늑대> 이야기는 베이즈 갱신을 생각할 수 있다
소년이 '거짓말쟁이'일 확률을 생각해 보자
베이즈 정리를 이용해서 이 이야기를 생각해 보자. 마을 사람들은 처음에 소년을 신뢰하고 있었으므로, 소년이 거짓말쟁이일 확률은 0.1, 정직한 아이일 확률을 0.9로 하자(사전확률).
소년이 '늑대가 왔다'라고 외친 후 늑대가 발견될 확률을 0.8, 늑대가 도망가 버려 발견되지 않을 확률을 0.2라고 하자.
한편, 소년이 거짓말쟁이라고 살지라도 실제로 늑대가 오면 '늑대가 왔다'라고 외치며 도움을 청하기 때문에, 소년이 거짓말쟁이일 때 늑대가 0.3의 확률로 발견된다고 하자.
이때 소년이 거짓말쟁이일 확률(사후 확률)을 계산하면, 베이즈 정리로 부터 0.28이 된다. 소년이 거짓말쟁이일 확률은 사전확률 10%에서 28%로 높아진 셈이다. 실은 베이즈 통계에서는 이 확률의 변화가 매우 중요하다.
사후 확률을 구하면,
P(거짓 | 미발견)
= P(거짓) x P(미발견 | 거짓) / P(미발견)
= P(거짓) x P(미발견 | 거짓) / { P(거짓) x P(미발견 | 거짓) + P(정직) x P(미발견 | 정직)
= 0.1 x 0.7 / {0.1 x 0.7 + 0.9 x 0.2}
= 0.28
P(정직 | 미발견)
= 0.72
새로운 결과가 나올 때 마다 '거짓말쟁이일 확률'은 갱신된다
늑대가 발견되지 않아 마을 사람들의 도움은 허탕이 된다. 소년이 거짓말쟁이일 확률은 최초의 10%에서 28%로 높아졌다. 이제 이 허탕치는 일이 2회, 3회 되풀이 되면 소년이 거짓말쟁이일 확률은 어떻게 바뀔까?
5회의 허탕으로 소년은 거짓말쟁이로 확신
소년이 거짓말쟁이일 확률은 처음 10%에서
1회 허탕으로 28%,
2회 허탕으로 57.6%,
3회 허탕으로 82.7%,
4회 허탕으로 94.3%,
5회 허탕으로 98.3%까지 상승한다.
이제 마을 사람들은 결국 소년은 거짓말쟁이라고 확신하게 된다. 다음에 '늑대가 왔다'는 말을 들어도 소년을 도우러 가지 않을 것이다.
베이즈 갱신
이처럼 어떤 일이 일어날 때 마다 사후 확률은 차츰 갱신(업데이트)되어 같다. 이것을 '베이즈 갱신'이라고 한다. 최초의 사전확률이 설령 개개관성이 부족한 것이었다고 해도, 베이즈 갱신을 거듭함으로써 얻는 사후 확률은 차츰 신뢰할 수 있는 것이 되어 간다.
6회째 늑대가 실제로 나타나면?
그런데 5회째 허탕을 친 뒤 6회째에 녹대가 실제로 나타났다고 가정하자. 이 때 소년이 거짓말쟁이일 확률이 98.3%에서 95.6%로 내려간다. 계속해서 늑대가 다시 나타나면, 사후 확률은 89.1%가 되지만, 여전히 높은 상태이다. 거짓말쟁이일 확률이 높아진 뒤에는, 늑대가 한번이나 두번 실제로 나타났다고 해서 소년이 정직한 아이일 확률이 바로 높아지는 것은 아니다.
늑대와 양치기 소년 증후군
미국의 수학자이자 정치학자인 앨버트 월스테터(Albert Wohlstetter, 1913-1997)는 여러 번의 경고에 대해 둔감해지는 경향을 '늑대와 양치기 소년 증후군'이라고 하면서 제 2차 세계 대전 때 미국이 일본군의 진주만 공격을 예측하지 못했던 원인이라고 했다.
당신이 이 검사를 받았더니 '양성'이라고 판정되었다. 이때 당신이 실제로 감염되었을 확률은 어느 정도일까? '민감도99%
의 검사'에서 양성이라고 판정되었다면 거의 확실하게 감염되었다고 생각하기 쉽다. 그러나, 실제로 계산해 보면 그 생각은 잘못된 생각이다.
베이즈 정리를 사용하면, '실제 감염되었을 확률'을 구할 수 있다.
10만 명이 검사를 받으면 몇 사람이 양성으로 판정될까?
10만 명 가운데 실제로 감염자는 100명이다. 이 100명이 검사를 받으면 99명이 올바로 양성이라고 판정된다(진짜 양성).
한편, 10만 명 중 실제로 비감염자는 9,900명이다. 이 사람들이 모두 검사를 받으면 그 중 3%에 해당하는 2,997명이 양성이라고 잘못 판정된다(거짓 양성).
따라서, 양성이라고 판정된 사람의 합계는 99명(진짜양성) + 2,997명(거짓 양성) = 3,096명이다.
실제 감염되었을 확률은 약 3.2%
이 검사에서 양성으로 판정받은 3,096명 가운데 실제로 감염된 사람들은 진짜 양성인 99명이므로, 구하는 확률은 99/3,096 ~ 3.2%이다. 양성이라고 판정되었더라도 실제 감염되었을 확률은 불과 3% 정도이다.
양성 판정으로 감염률은 0.1%에서 3.2%로 상승
원래 이 감염증의 감염률(사전 확률)은 0.1%로서, 검사를 받기 전 당신은 0.1%의 확률로 감염되어 있음을 의미했다.
그러나, 이 검사를 받고 양성이라고 판정된 결과, 당신의 감염확률은 약 3.2%(사후 확률)로 상승한다.
이처럼 어떤 일이 일어남에 따라 사전 확률은 사후 확률로 바뀐다. 이것이 베이즈 통계의 큰 특징이다.
베이즈 정리를 사용해 계산해 보기
P(감염) = 1/1000 ; P(비감염) = 999/1000
이제 양성이라고 판정될 확률은
1) 감염되었을 때 P(양성 | 감염) = 99/100
2) 감염되지 않았을 때 P(양성 | 비감염) = 3/100
따라서, 양성이라고 판정되었을 때 감염되었을 사후 확률은 다음과 같다.
P(감염 | 양성) = 0.032
이러한 사후 확률을 구하는 방법은
P(감염 | 양성)
= P(감염) x P(양성 | 감염) / P(양성)
= P(감염) x P(양성 | 감염) / { P(감염) x P(양성| 감염) + P(비감염) x P(양성 | 비감염) }
= 1/1000 x 99/100 / { 1/1000 x 99 /100 + 999/1000 x 3/100 }
= 99/3096
= 0.032
재검사에서 '다시 양성'인 경우, 감염 확률은 어떻게 될까?
당신은 이 검사에서 양성이라고 판정되었지만, 실제로 감염되었을 확류은 3.2%였다. 그런데 재검사를 받고 다시 양성으로 판정되었다고 하자. 이제 당신이 실제로 감염되었을 확률은 얼마일까?
2회째도 양성이면 감염 가능성은 농후해 진다.
처음 검사에서 양성이라 판정되었던 3,096명 가운데 실제로 감염자는 99명이다. 이 99명의 감염자가 재검사를 받으면 약 98명은 양성이라고 올바로 판정된다(진짜 양성). 한편, 3,096명 가운데 실제 비감염자는 2997명이었다. 이 2997명의 비감염자가 재검사를 받으면 그 3%에 해당하는 약 90명은 양성으로 잘못 판정된다(가짜양성).
따라서, 2회째 검사에서 다시 양성이라고 판정되는 사람의 수는 약 98명(진짜 양성) + 약 90명(가짜양성) = 188명이다.
당신은 이 188명 중 1명이다.
2회째 양성 판정을 받은 사람이 실제로 감염되었을 확률은 98/188 ~ 52%가 된다. 59%를 넘어 실제로 감염되었을 가능성이 커진다.
베이즈 정리를 사용해 계산해 보기
앞의 계산 식에서 0.1%를 3.2%로 바꾸고 베이즈 정리를 사용해 계산하면 된다.
P(감염) = 99/3096 ; P(비감염) = 2997/3096
이제 양성이라고 판정될 확률은
1) 감염되었을 때 P(양성 | 감염) = 99/100
2) 감염되지 않았을 때 P(양성 | 비감염) = 3/100
따라서, 양성이라고 판정되었을 때 감염되었을 사후 확률은 다음과 같다.
P(감염 | 양성) = 0.52
이러한 사후 확률을 구하는 방법은
P(감염 | 양성)
= P(감염) x P(양성 | 감염) / P(양성)
= P(감염) x P(양성 | 감염) / { P(감염) x P(양성| 감염) + P(비감염) x P(양성 | 비감염) }
= 99/3096 x 99/100 / { 99/3096 x 99 /100 + 2997/3096 x 3/100 }
확률이란 '어떤 일 또는 사건이 일어나기 쉬운 정도'를 나타내는 수치이다. 확률은 0에서 1까지의 값을 취하며, 1에 가까울수록 그 사건이 확실하게 일어나는 것을 의미한다.
A라는 사건이 일어날 확률은 P(A)로 나타낸다.
'조건부 확률'이란?
조건부 확률이란 '어떤 조건을 바탕으로 다른 사건이 일어날 확률'을 말한다.
예를 들어, '52장의 트럼프 카드에서 뽑은 1장이 하트일 때, 그것이 K일 확률' 같은 것이고, P(K|하트) 로 나타낸다.
{A가 일어났을 때 B가 일어날 확률} = {A와 B가 동시에 일어날 확률} / {A가 일어날 확률}
P(B|A) = P(A∩B) / P(A)
'베이즈 정리'란?
'복통에 걸린 원인을 알고 싶다', '성공한 요인은 무엇일까?' 등과 같이 어떤 결과가 있을 때 무엇이 원인이었는지를 알고 싶은 일은 흔히 있다. 그럴ㄸ 때 도움이 되는 도구가 베이즈 정리이다. 이를 이용하면 결과의 배후에 있는 원인을 찾아낼 수 있다.
조건부 확률을 사용하면, '원인 A가 일어났을 때 결과 B가 일어날 확률'은 P(B|A)로 나타낼 수 있다. 한편 베이즈 정리는 원인과 결과의 순서를 거꾸로 한 P(A|B)를 구하는 정리이다. 이것은 '결과 B가 있을 때, 그것이 원인 A에 의한 것일 확률'을 의미한다.
베이즈 정리를 사용해 구한 확률은 시간을 거스르는 것처럼 해서 결과에서 원인을 추정하는 확률이라 할 수 있다. 이 점에서 베이즈 정리에 근거한 베이즈 통계학에서는 이 확률을 가리켜 '역확률'이라고 부르기도 한다.
P(원인 A | 결과 B) = P(원인 A) x P(결과 B | 원인 A) / P(결과 B)
여기서, P(원인 A | 결과 B)를 사후 확률, P(원인 A) 을 사전 확률이라고 한다.
P(결과 B)는 A 뿐만 아니라 A이외의 원인에 의해 결과 B가 일어날 확률도 모두 계산하고 그들을 모두 더해 얻어진다.
라플라스에 의해 '베이즈 정리'는 확률론의 기초가 되었다.
확률에 대한 수학적으로 생각하는 '확률론'의 기원은 17세기 도박 연구였다. 확률론의 창시자는 블레즈 파스칼(1623-1662)와 피에르 드 페르마(1607-1665)이고, 확률론을 확립한 인물이 수학자이자 천문학자이자 정치가였던 시몽 라플라스(1749-1827)였다. 나폴레옹은 사관학교 수학교수였던 라플라스에게 수학의 재능을 인정받아 사관학교 입학을 허가 받았다.
라플라스가 지적한 '이유 불충분의 원리'
'주사위를 1회 던져서 1의 눈이 나올 확률은? '
이렇게 질문을 받으면 우리는 '1/6'이라고 답한다. 특정한 눈이 나오기 쉽다고 간주할 충분한 이유가 없으면 어떤 눈이 나올 확률은 모두 같다. 이것으 '이유 불충분의 원리'라고 하며, 확률론의 기초 가운데 하나이다. 이 원리를 라플라스가 최초로 고안항였다.
'불확실'한 현실에서는 특히 확률론이 필요
라플라스는 1814년에 출판한 <확률의 철학적 시론>에서 이렇게 말했다.
'어떤 시점에서 자연을 움직이는 힘과 구성물의 상태 모두를 알고 있는 지서이 있다면,
그 지성에게는 불확실한 것이 아무것도 없고 과거와 미애를 모두 꿰뚫어볼 수 있을 것이다.'
이 지성을 '라플라스의 악마'라고 부르기도 한다. (라플라스 자신은 악마라는 말을 사용하지 않았다.)
현실의 인간 주위에는 불확실한 일들이 매우 많으며 과거와 미래 모두를 알아차리기는 어렵다. 그러므로 라플라스는 확률론이 더욱 필요하다고 말하고 싶었는지도 모른다.
라플라스는 이 책에서 6가지 원리를 제시했다. 거기에는 '이유 불출분의 원리', '덧셈 정리', '곱셈 정리' 등도 들어있다.
마지막 제6원리는 '관찰된 이에 여러가지 원인이 생각될 때, 각각의 확률을 구하는 원리'였다. 이것이 베이즈 정리이다.
라플라스는 베이즈 정리를 확률론의 기초 원리로 자리 잡게 한 것이다. 최초의 발견자를 존중해 ' 베이즈 정리'라고 부르고 있지만, 라플라스야 말고 이 정리의 확립에 가장 크게 공한한 수학자이다.
영국 런던 남동쪽 턴브리지웰스 Tunbridge Wells 라는 마음에 토마스 베이즈(Thomas Bayes, 1702-1761)는 개신교 목사로 활동한 사람이다. 영국 에든버러 대학에서 논리학과 신학을 공부했다. 목사가 된 베이즈는 아이작 뉴턴(1642-1727)의 신봉자로 수학자로도 활동했다. 뉴턴이 발견한 미적분법(유율법)에는 엄밀성이 결여되어 있다는 비판이 일어날 때, 베이즈는 유율법을 옹호했다.
베이즈 정리의 원형이 되는 개념은?
베이즈는 특히 확률 문제 에 흥미를 가졌고, 수학자로서 남긴 유일한 논문에 베이즈 정리의 원형이 되는 확률 개념이 적혀있다.
"사물의 원인이 불명인 경우는 '하나가 아니라, 다수의 원인이 작용하고 있다.'고 가정하자. 그리고 다수의 원인에 대해 확률을 생각하고, 관찰된 결과를 사용해서 해결하면 된다."
이 문장의 '원인에 대한 확률'에 주목한 그의 사고방식이 오늘 날 베이즈 통계의 기초가 되었다.
베이즈 사후 친구가 논문을 세상에 알림
베이즈 사후 친구인 리처드 파라이스(Richard Price, 1723-1791)가 논문을 1763년에 출판하였다. 그리고 프랑스 수학자 피에르 시몽 라플라스(1749-1827)에 의해 베이즈 정리는 확률론의 기초로 자리 잡았다.
● 앞면이 나올 가능성이 1/3인 왜곡된 동전을 반복해서 3번 던질 때 확률변수 X를 앞면이 나온 횟수라 하자. 이 때 확률변수 X의 확률 분포를 구하라.
#MASS 패키지 사용
#dbinom(성공횟수, 시행횟수, 성공확률)을 이용해 이항분포로부터 P(X = x)를 구한다.
library(MASS)
n =3; p = 1/3
xx <- dbinom(0:3, n, p)
#names()를 이용하여 확률분포표의 형태로 출력
names(xx) <- c("0", "1", "2", "3")
xx
#as.fractions()를 이용하여 소수를 분수로 변환
frac_xx <- as.fractions(xx)
names(frac_xx) <- c("0", "1", "2", "3")
frac_xx
● 한 개의 공정한 주사위를 4번 던질 때 1의 눈이 나타날 확률분포를 구하여라.
n =4; p = 1/6
xx <- dbinom(0:4, n, p)
names(xx)=c("0", "1", "2", "3", "4")
round(xx, 3)
●동전 1개를 5회 던질 때, 앞면이 나오는 횟수를 확률변수 X라고 할 때, X의 평균과 분산, P(X≤2)를 구하시오.
#distrEx 패키지 내 Binom(표본크기, 성공확률)로 이항분포를 정의
#E(X), var(X)로 평균과 분산을 구함.
library(distrEx)
x <- c(0, 1, 2, 3, 4, 5)
xx <- Binom(5, 0.5)
as.fractions(E(xx))
as.fractions(var(xx))
또는
x <- c(0, 1, 2, 3, 4, 5)
xx <- dbinom(0:5, 5, 0.5)
xx
as.fractions(mean_xx <- sum(x * xx))
as.fractions(var_xx <- sum((x - mean_xx)^2 * xx))
as.fractions(pbinom(2, 5, 0.5))
포아송 분포
● 어떤 복권 판매점에서는 매일 10시와 11시 사이에 고객이 평균 60명씩 몰려든다고 하자. 그렇다면 10시와 11시 사이에 1분당 2명이 도착할 확률은?
# 1분당 평균 도착할 확률은 lambda
time = 60; people = 60
lambda = people/time
#dpois(발생횟수, 평균)을 이용, 포아송 분포로 부터 P(X=2)를 구함.
dpois(2,lambda)
●어떤 공장에서 생산된 물건의 불량율이 0.0001이다. 그 공장의 생산라인에서 50,000개를 임의로 추출하여 2개 이하의 불량품이 나올 확률은?
n = 50000; p = 0.0001
lambda = n * p
# ppois(분위수, 평균발생횟수)를 이용하여 포아송 분포로 부터 P(X<=2)를 구함
ppois(2, lambda)
# 또는
# pbinom(분위수, 표본 크기, 성공 확률)을 이용하여 이항분포로부터 P(X<=2)를 구함.
pbinom(2, n, p)
정규분포
● 통계학과 학생의 영어성적은 N(75, 9)인 정규분포를 따른다고 한다. 어느 한 학생의 영어성적이 80점 이상일 확률을 구하라.
x <- 80
mean <- 75
sd <-3
z <- (x-mean)/sd
round(z,2)
#pnorm(분위수)를 이용 정규분포로 부터 P(X >= 80)을 구하기 위해서, 1-P(X <= 80)을 이용
round(1-pnorm(z),4)