728x90
반응형

계절별 일기도 분석

1) 겨울철 분석

겨울은 바이칼호 부근에 정체하고 있는 시베리아 고기압의 영향을 받는 계절이다. 시베리아 고기압의 중심은 여러 개로 분리하여 분석하는 것보다 주변에 분포한 관측 값을 고려하여, 하나의 중심을 가진 고기압 으로 분석·묘화하는 것이 좋다. 이 지역은 1500m 이상의 고원지대이기 때문에 바람장, 기압값에 의존한 분석은 중요치 않다. 아래 그림 3은 24시간 간격의 지상일기도 분석결과로서, 수정이 필요한 일기도(a)와 제대로 묘화된 일기도(b)의 예를 보여준다.

 

그림 3(a)의 경우 몽골서쪽지역에 모든 기압 값을 고려하여 고기압을 3개로 분리시켰다. 3개로 분리한 결과 고기압 주변의 등압선 굴곡이 커지고, 정체된 시베리아 고기압이 보이지 않고 고립된 약한 고기압으로 보인다. 티베트 고원지역은 기압값이 없는데도 불구하고 매우 강한 기압경도를 보이는 저기압을 묘화하였다. 이렇게 묘화한 결과 고기압과 저기압 사이에 등압선 간격이 매우 넓은 지역이 있는가 하면, 바로 인근에 매우 조밀한 지역도 나타났다.

 

그림 3(b)는 24시간 후 분석된 일기도인데 정체된 시베리아 기단을 하나의 고기압으로 분석하여 기단의 세력이 강하고 범위가 넓어 보이며, 굴곡이 덜한 원형에 가까운 등압선으로 묘화하였다. 남쪽에 위치한 저압부도 원형으로 저기압 중심을 그리지 않아 그림 3(a)에 비해 기압경도력이 일정하여 공기의 흐름이 잘 묘화되었으며, 특히 겨울철 가장 뚜렷한 시베리아 고기압의 세력이 남쪽과 동쪽으로 뻗여 있는 모습이 잘 묘화되었다

 

 

아래 그림 4는 겨울철 우리나라를 자주 통과하는 중규모 저기압(발해만 저기압)에 의한 일기도 분석결과이다. 겨울철 차가운 공기가 지배하는 가운데, 더 차가운 공기가 이동하면서 하층대기나 지상에 기압골을 형성하여 우리나라 서쪽지방에 눈이 내린다. 전선면의 고도가 낮아 그림 4(a)와 같이 500hPa에서는 서풍형의 바람과 동서로 평행한 기온구조를 보이나, 850hPa에서는 그림 4(b)와 같이 전선이 보이며, 전선의 서쪽은 북서류가 동쪽은 남서류가 나타난다.

그림 4(c)와 같이 지상일기도에서 저기압 중심이 나타나기도 한다. 그림 4(d)는 이번 사례에 대한 간단히 요약한 것으로서, 그림 4(b)의 A와 B를 자른 연직 모식도이다.

 

 

 

 

 

 

 

출처: 손에 잡히는 예보기술 (기상청)

반응형
728x90
반응형

동아시아 지형

 

 

 

아래 그림 1은 아시아 일기도 (지상~100hPa). 내부 사각형 영역은, 3시간 지상일기도 분석시 사용.

105°E 서쪽, 1500m 이상의 고지대 분포. 티베트고원 해발고도 >  3000m 

몽골 고원 지대와 티베트고원의 해발 고도는 각각 850hPa, 700hPa 이상의 고도에 해당.

이 고도보다 낮은 고도의 일기도를 분석할 경우,  바람방향, 기온, 기압 등이 일기도 상에서 불연속됨. 

따라서, 지형과 기후적인 측면을 고려한 분석과 일기도를 작성해야.

 

아래 그림 2는 겨울(1월, 상)과 여름철(12월, 하)의 전지구 월평균 지상일기도.

유라시아 대륙은 1월에  시베리아 고기압이, 7월에는 열 저기압의 세력이 뚜렷. 

1월에 지표 냉각에 의한 시베리아 고기압이 유라시아 대륙에 광범위하게 위치, 상대적으로 해상에는 알류산 저기압이 발달. 알류산 저기압은 60°N 한대전선대(고위도 저압대)로서 지구대기대순환에 의해 발생하는 저기압이지만, 겨울철 아시아 대륙의 고기압 발달에 따라 상대적으로 더욱 발달하고 규모가 커진다. 이에 따라 30°N 부근의 북태평양 고기압은 동부 태평양으로 이동하고 범위도 축소된다.

 

북대서양에서도 비슷한 형태.

1월에 버뮤다 고기압은 아이슬란드 저기압의 세력에 밀려 동부 북대서양 해상에서 축소된다.

7월에 유라시아 대륙에 광범위하게 열 저기압이 자리잡고, 상대적으로 북태평양에 고기압이 발달하고 규모도 커진다. 북대서양도 유사하게 버뮤다 고기압이 발달한다. 

겨울(1월)

 

여름(7월)

그림 2. 겨울(1월, 상)과 여름(7월, 하) 전지구 평균 지상일기도. 주황색상자:발달, 하늘색상자:축소(Ahrens and Samson, 2011)

 

 

계절별 일기도 분석


1) 겨울철 

겨울은 바이칼호 부근에 정체하고 있는 시베리아 고기압의 영향을 받는 계절.

시베리아 고기압의 중심은 여러 개로 분리하지 않고, 주변 관측 값을 고려하여, 하나의 중심을 가진 고기압 으로 분석·묘화한다.이 지역은 1500m 이상 고원지대이기 때문에 바람장, 기압값에 의존해 분석하지 않는다.  
 
아래 그림 3은 하루(24시간)간격의 지상일기도 분석결과.

그림 3(a):  몽골서쪽지역 모든 기압값을 고려하여 고기압을 3개로 분리.  그 결과 고기압 주변의 등압선 굴곡이 커지고, 정체된 시베리아 고기압이 보이지 않고 약한 고기압으로 보인다. 티베트 고원지역은 기압값이 없는데도 불구하고 매우 강한 기압경도를 보이는 저기압으로 묘화된다.

 그림 3(b):  정체된 시베리아 기단을 하나의 고기압으로 분석하여 기단의 세력이 강하고 범위가 넓어 보이며, 굴곡이 덜한 원형에 가까운 등압선으로 묘화됨. 남쪽에 위치한 저압부도 그림 3(a)에 비해 기압경도력이 일정하여 공기의 흐름이 잘 묘화되었고, 특히 겨울철 가장 뚜렷한 시베리아 고기압의 세력이 남쪽과 동쪽으로 뻗여 있는 모습이 잘 묘화됨. 

 

그림 3.  지상 편집 일기도 분석 예. (a)는 수정이 필요한 예, (b)는 잘된 분석의 예

 

 

아래 그림 4는 겨울철 우리나라를 자주 통과하는 중규모 저기압(발해만 저기압)에 의한 일기도 분석결과.

겨울철 차가운 공기가 지배하는 가운데, 더 차가운 공기가 이동하면서 하층대기나 지상에 기압골을 형성하여 우리나라 서쪽지방에 눈이 내린다. 

전선면의 고도가 낮아 그림 4(a)와 같이 500hPa에서는 서풍형의 바람과 동서로 평행한 기온구조를 보이나,  그림 4(b)와 같이 850hPa에서는 전선이 보이며, 전선의 서쪽은 북서류가 동쪽은 남서류가 나타난다. 

그림 4(c)와 같이 지상일기도에서 저기압 중심이 나타남.

그림 4(d)는 이번 사례에 대한 간단히 요약한 것으로서, 그림 4(b)의 A와 B를 자른 연직 모식도이다.

 

 

 

 

 

그림 4.  2012년 1월 3일 00UTC 일기도와 우리나라 주변((b)의 A와 B) 모식도(Ahrens and Samson, 2011)

 

 

 

2) 봄철


봄철에는 중국을 중심으로 몽골 남쪽까지 지표가열로 열 저기압이 발생하는 시기

이 시기에 주의하여 분석할 요소로는 열 저기압, 전선저기압, 북태평양 고기압 등. 


열 저기압

지표가열로 생성된 저기압으로서 이동하지 않는 정체성 저기압

대륙의 얼었던 땅이 녹는 사막과 황토고원지대에서 주변보다 기온이 높아져 열 저기압이 발생

이 저기압의 강한 상승 기류를 따라 모래와 먼지가 상층 대기로 불려 올라간 뒤, 상층의 강한 편서풍을 타고 우리나라로 이동해 오기도 하는데, 이를 황사라고 한다. 

우리나라에 황사가 심하게 이동해 오는 경우는 대개 우리나라 북쪽을 지나는 저기압 후면에서 북서풍이 부는 기압패턴이 유지될 때. 한랭전선을 동반한 경우에 특히 황사가 심해진다.

 

아래 그림 5에서 2011년 4월 19일 00UTC에 850hPa에 중국과 몽골지역으로 온난이류가 강화되었다.

그림5(b): 0℃ 등온선이 우리나라에서 몽골 북서쪽까지 남에서 북으로 놓여있다. 티베트 고지대 저기압은 
열저기압이고 정체성 저기압. 

지상일기도(그림 5c)에서도 저기압 중심이 보인다.

열 저기압은 3일간 정체하다가, 상층의 온도골을 동반한 기압골이 서에서 동으로 이동하면서 이 열 저기압 상공을 지나갈 때, 연직으로 잘 발달된 전선 저기압이 발생한다. 이 전선저기압은 동서의 큰 온도 차이에 의해 빠르게 이동하면서 발달하는데 그림 6처럼, 500hPa에 한기를 동반한 기압골과 합쳐져서 연직으로 잘 발달된 저기압이 한반도를 통과하는 것을 볼 수 있다. 


850hPa과 지상일기도에 저기압 중심이 보이며, 전선분석이 가능.

저기압 중심을 기준으로 전선분석을 하기 위해서는 뚜렷한 동서의 온도차이가 있어야 한다. 따라서, 전선분석하지 않는 경우: 

1) 열저기압처럼 저기압 중심을 기준으로 주위가 모두 따뜻한 상태이거나, 해발고도가 높은 고지대일 경우

2) 상층 한랭 공기가 동반되어 연직으로 잘 발달된 구조가 아닐 경우.

 

 

 

 

 

그림 5.  2011년 4월 19일 00UTC(열 저기압 발달사례)

 

 

 

 

그림 6.  2011년 4월 22일 00UTC(전선 저기압 발달사례)

 

 

 

봄철은 상층은 아직 겨울철 패턴을 유지하고, 중국 대륙의 열적 가열은 강화되기 때문에 대기가 불안정한 
시기. 상층의 강한 한기를 가진 공기가 우리나라 쪽으로 이동할 때, 저기압이 연직적으로 강하게 발달. 

 

그림 7은 그림 6(c)와 같은 시각의 300hPa 일기도와 300hPa 부근과 지상의 모식도. 
300hPa 일기도(그림7a)에서 기압골(trough)부근으로 남북의 고도경도가 크고, 100kts이상의 강풍 중심이 우리나라 부근에 위치. 제트기류의 중심이 위치하는 기압골을 중심으로 서쪽은 기류가 합류(confluence)하는 형태로 상층 수렴, 하층 발산, 동쪽은 기류가 분류(diffluence)되는 형태로 상층 발산, 하층 수렴. 그림 7(b): 지상과 상층과의 일기시스템 구조. 

그림 6(c)의 지상일기도와 비교해 보면, 전선이 동반된 발달한 저기압은 서해상에 위치한 저기압과, 고기압은 몽골남부에 위치한 고기압과 일치. 동아시아 봄철은 중위도 파동에 따른 고·저기압 발달 이론이 잘 일치되는 계절.

 

(a) 2011년 4월 19일 00UTC 300hPa 일기도

 

 

(b) 3차원 모식도

그림 7.  2011년 4월 19일 00UTC 300hPa 일기도와 3차원 모식도

 

 

아래 그림 8에서  850hPa에 동중국해 부근에 위치한 정체성 고기압이다. 

  • 필리핀 고기압이라고 부르며, 2월부터 벵갈만부근과 인도차이나반도의 지표가열로 저압부가 형성됨에 따라 상대적으로 필리핀 부근해상에서 발생 하는 키가 작은 고기압.  
  • 2월 말에 필리핀 부근에 위치하다가 4월 초부터 동중국해 부근 까지 확장.
  • 하층대기의 대륙과 해양의 비열차이에 의해 만들어지는 아열대 고기압

이 850hPa 고기압은 중국에서 이동성 고기압이 동중국해상으로 이동할 때 합쳐지면서 그림 8(a)와 같이 우리나라까지 고기압의 능이 확장된다. 이렇게 확장하면 고기압 가장자리를 따라 다량의 수증기가 포함된 온난한 기류가 우리나라로 유입. 서쪽에서 발달하는 저기압이 접근하면 많은 비. 

 

 

(a) 2011년 4월 20일 00UTC

(b) 2011년 4월 21일 00UTC

(c) 2011년 4월 22일 00UTC

그림 8.  850hPa 일기도(검정색 선은 수정이 필요한 부분임)

 

 

 

 

[ 참고문헌 ]
홍성길, 1995: 기상 분석과 일기예보, 교학연구사
이우진, 2006: 일기도와 날씨해석, 광교이텍스
Ahrens. C. D. and P. Samson, 2011: Extreme weather and climate. printed in the United States of America.
Hsu. H. -H., C. -T. Terng, and C. -T. Chen, 1999: Evolution of large-cale circulation and heating during the east transition of Asian summer monsoon. Journal of Climate, 12, 793-810.
Samel. A. N., W. C. Wang, and X. Z. Liang, 1999: The monsoon rain band over China and relationships with Eurasian circulation. Journal of Climate, 12, 115-131.
Bao. C. -L., 1987: Synoptic Meteorology in China. China ocean press. Beijing; p47-81.

Han. S. -U. and B. -Y. Byun, 2006: The existence and the climatological characteristics of the spring rainy period in Korea. 
International Journal of Climatology, 26, 637-654.
Tian. S. -F. and T. Yasunari, 1998: Climatological aspects and mechanism of spring persistent rain over central China. Journal of the Meteorological Society of Japan, 76, 57-71.
Matsumoto. J., 1992: The seasonal changes in Asian and Australian monsoon regions. Journal of the Meteorological Society of Japan, 70, 257-273.
Djuric, D., 1994: Weather Analysis. Prentice Hall, Texas A&M university, p7-10

 

출처: 손에 잡히는 예보기술(기상청) 

반응형
728x90
반응형
 

일회용 플라스틱 줄이기 위한 소고

 

어제 학교 앞 어느 카페에서 청포도 에이드를 사먹었는데, 음료는 플라스틱 텀블러에 그리고 비닐백, 스트로우, 휴지까지 친절히 받았다. 

내 의사나 필요를 전혀 물어보지 않으시고, 각종 일회용품을 세트로 안겨주셨다. 

"현금영수증 필요하세요? " 처럼 "스트로우 필요하세요?" "휴지 몇 장 필요하세요?" 라는 멘트를 의무적으로 해야하는 법안 통과가 절실해 보인다. 사람이 일일이 하기 힘들수 있으니, 인공지능으로 대체되어야 정착될 수도 있겠다. 

 

그렇다면, 환경보호를 위해서 인공지능으로 다 대체되어야 한다는 말인가? 인간은 정말 지구에 해악밖에 끼치지 않는가? 

 

반응형
728x90
반응형

베이즈 갱신은 실종된 항공기나 선박의 수색에도 위력을 발휘한다. 

 

비행 기록 장치는 어디에 가라앉았는가? 

2009년 6월 1일 브라질 리우데자네이루를 이륙한 에어프랑스 447편이 프랑스 파리로 향하다가 대서양에 추락하였다. 승무원과 승객 288명이 모두 사망하였는데, 기체 일부는 곧 발견되었지만 비행 기록장치인 블랙박스는 발견되지 않은채 수색은 중단되었다. 

이 블랙박스 장치가 가라앉은 해저의 위치는 다음해의 재수색에서 드디어 특정되었다. 이 재수색에 사용된 방법이 베이즈 갱신이었다.

 

베이즈 갱신을 상요해 수색범위를 정한다

블랙박스가 가라앚았을 가능성이 있는 해저를 복수의 범위로 나눈다. 그리고 각각의 범위마다 블랙박스의 발견 사전확률을 설정한다. 주관적으로 설정해도 무관하다. 

그리고, 사전 확률이 가장 큰 범위를 수생한다. 수색은 완전하지 않으며, 만약 거기에 가라앉았다고 해도 일정한 확률로 놓치게 된다. 그러할지라도 '그 범위를 일단 수색했어도 발견되지 않았다'는 새로운 결과가 나온다. 이 새로운 결과를 사용해 각 범위의 발견 확률을 베이즈 갱신한다.  이렇게 해서 얻은 각 범위의 발견 확률(사후확률)은 수색 결과가 가미되어 있는 만큼 최초의 사전확률보다 신회할 수 있을 것이다. 

그리고, 새롭게 발견 확률이 가장 커진 범위를 수색한다. 이 수색에서 발견되지 않아도 그 결과를 사용해 베이즈 갱신을 한다. 이 방법을 사용하면 다음에 어떤 범위를 수색해야 할지를 합리적으로 결정할 수 있다. 

에어프랑스 447편의 블랙박스가 가라앉은 해저의 범위는 이 방법으로 특정되었고, 블랙박스는 드디어 발견, 회수 되었다. 

 

베이즈 수색

베이즈 갱신을 사용한 이 방법을 '베이즈 수색'이라고 하고 과거에도 잠수함 등의 수색에 사용되었다.  

반응형
728x90
반응형

'늑대가 왔다'라고 외치는 소년을 과연 믿을 수 있을까? 

어느 마을에 양치기 소녀이 있었다. 소년은 심심한 나머지, '늑대가 왔다'라고 거짓말을 해서 마을 사람들을 불러 모았다. 마을 사람들은 연장을 들고 달려왔지만 장난이라는 것을 알고는 웃으면서 돌아갔다. 소년은 여러번 거짓말을 해서 마을 사람들을 속였다. 

어느 날 소년 앞에 정말로 늑대가 나타났다. 소년은 '늑대가 왔다'고 외쳤지만, 마을 사람들은 '더 이상은 속지 않는다'며 소년을 도우러 가지 않았다. 소년은 양들을 모두 잃고 말았다. 

 

이솝 우화 <양치기와 늑대> 이야기는 베이즈 갱신을 생각할 수 있다

 

소년이 '거짓말쟁이'일 확률을 생각해 보자

베이즈 정리를 이용해서 이 이야기를 생각해 보자. 마을 사람들은 처음에 소년을 신뢰하고 있었으므로, 소년이 거짓말쟁이일 확률은 0.1, 정직한 아이일 확률을 0.9로 하자(사전확률).

소년이 '늑대가 왔다'라고 외친 후 늑대가 발견될 확률을 0.8, 늑대가 도망가 버려 발견되지 않을 확률을 0.2라고 하자. 

한편, 소년이 거짓말쟁이라고 살지라도 실제로 늑대가 오면 '늑대가 왔다'라고 외치며 도움을 청하기 때문에, 소년이 거짓말쟁이일 때 늑대가 0.3의 확률로 발견된다고 하자. 

이때 소년이 거짓말쟁이일 확률(사후 확률)을 계산하면, 베이즈 정리로 부터 0.28이 된다. 소년이 거짓말쟁이일 확률은 사전확률 10%에서 28%로 높아진 셈이다. 실은 베이즈 통계에서는 이 확률의 변화가 매우 중요하다. 

 

 

사후 확률을 구하면, 

P(거짓 | 미발견)

=  P(거짓) x P(미발견 | 거짓)  /  P(미발견) 

=  P(거짓) x P(미발견 | 거짓)  /  { P(거짓) x P(미발견 | 거짓) + P(정직) x P(미발견 | 정직) 

=     0.1   x   0.7    /  {0.1  x  0.7  + 0.9  x  0.2}

=  0.28

P(정직 | 미발견) 

=  0.72

 

새로운 결과가 나올 때 마다 '거짓말쟁이일 확률'은 갱신된다

늑대가 발견되지 않아 마을 사람들의 도움은 허탕이 된다. 소년이 거짓말쟁이일 확률은 최초의 10%에서 28%로 높아졌다. 이제 이 허탕치는 일이 2회, 3회 되풀이 되면 소년이 거짓말쟁이일 확률은 어떻게 바뀔까? 

 

5회의 허탕으로 소년은 거짓말쟁이로 확신

소년이 거짓말쟁이일 확률은 처음 10%에서

1회 허탕으로 28%,

2회 허탕으로 57.6%,

3회 허탕으로 82.7%,

4회 허탕으로 94.3%,

5회 허탕으로 98.3%까지 상승한다.

이제 마을 사람들은 결국 소년은 거짓말쟁이라고 확신하게 된다. 다음에 '늑대가 왔다'는 말을 들어도 소년을 도우러 가지 않을 것이다. 

 

베이즈 갱신

이처럼 어떤 일이 일어날 때 마다 사후 확률은 차츰 갱신(업데이트)되어 같다. 이것을 '베이즈 갱신'이라고 한다. 최초의 사전확률이 설령 개개관성이 부족한 것이었다고 해도, 베이즈 갱신을 거듭함으로써 얻는 사후 확률은 차츰 신뢰할 수 있는 것이 되어 간다. 

 

6회째 늑대가 실제로 나타나면?

그런데 5회째 허탕을 친 뒤 6회째에 녹대가 실제로 나타났다고 가정하자. 이 때 소년이 거짓말쟁이일 확률이 98.3%에서 95.6%로 내려간다. 계속해서 늑대가 다시 나타나면, 사후 확률은 89.1%가 되지만, 여전히 높은 상태이다. 거짓말쟁이일 확률이 높아진 뒤에는, 늑대가 한번이나 두번 실제로 나타났다고 해서 소년이 정직한 아이일 확률이 바로 높아지는 것은 아니다. 

 

늑대와 양치기 소년 증후군

미국의 수학자이자 정치학자인 앨버트 월스테터(Albert Wohlstetter, 1913-1997)는 여러 번의 경고에 대해 둔감해지는 경향을 '늑대와 양치기 소년 증후군'이라고 하면서 제 2차 세계 대전 때 미국이 일본군의 진주만 공격을 예측하지 못했던 원인이라고 했다. 

 

 

 

 

 

반응형
728x90
반응형

민감도 99% 검사에서 '양성'으로 판정되면 실제로 감염되었을까? 

감염자 100명에 대해 99명을 올바로 양성으로 판정

인구 10만 명당 100명의 감염자가 존재하는 감염증이 있다. 어떤 감염 검사를 했을 때 감염되었을 경우에는 '양성', 감염되지 않았을 경우에는 '음성'이라고 판정된다. 

 

단, 이 감염 검사에는 오류가 항상 따라 다닌다. 실제로는 감염되지 않은 100명의 비감염자가 이 검사를 받으면 97명은 올바로 음성으로 판정된다(진짜 음성). 그러나, 3명은 양성으로 잘못 판정된다(가짜 양성). 이것을 전문용어로 '특이도 97%'라고 한다. 

한편, 실제로 감염된 100명의 감염자가 이 검사를 받으면 99명은 올바로 양성으로 판정된자(진짜 양성). 그러나 1명은 음성으로 잘못 판정된다(가짜 음성). 이것을 '민감도 99%'라고 표현한다.

특이도 감도 개념은 아래 링크 참조

https://aeir.tistory.com/entry/%ED%86%B5%EA%B3%84-%EC%98%A4%EC%B0%A8%ED%96%89%EB%A0%AC-confusion-matrix

 

'양성'으로 판정되었다면 실제로 감염되었을 확률은?

당신이 이 검사를 받았더니 '양성'이라고 판정되었다. 이때 당신이 실제로 감염되었을 확률은 어느 정도일까? '민감도99%

의 검사'에서 양성이라고 판정되었다면 거의 확실하게 감염되었다고 생각하기 쉽다. 그러나, 실제로 계산해 보면 그 생각은 잘못된 생각이다. 

 

 

베이즈 정리를 사용하면, '실제 감염되었을 확률'을 구할 수 있다. 

10만 명이 검사를 받으면 몇 사람이 양성으로 판정될까?

10만 명 가운데 실제로 감염자는 100명이다. 이 100명이 검사를 받으면 99명이 올바로 양성이라고 판정된다(진짜 양성).

한편, 10만 명 중 실제로 비감염자는 9,900명이다. 이 사람들이 모두 검사를 받으면 그 중 3%에 해당하는 2,997명이 양성이라고 잘못 판정된다(거짓 양성).

따라서, 양성이라고 판정된 사람의 합계는 99명(진짜양성) + 2,997명(거짓 양성) = 3,096명이다. 

 

실제 감염되었을 확률은 약 3.2%

이 검사에서 양성으로 판정받은 3,096명 가운데 실제로 감염된 사람들은 진짜 양성인 99명이므로, 구하는 확률은 99/3,096 ~ 3.2%이다. 양성이라고 판정되었더라도 실제 감염되었을 확률은 불과 3% 정도이다. 

 

양성 판정으로 감염률은 0.1%에서 3.2%로 상승

원래 이 감염증의 감염률(사전 확률)은 0.1%로서, 검사를 받기 전 당신은 0.1%의 확률로 감염되어 있음을 의미했다.

그러나, 이 검사를 받고 양성이라고 판정된 결과, 당신의 감염확률은 약 3.2%(사후 확률)로 상승한다.

 

이처럼 어떤 일이 일어남에 따라 사전 확률은 사후 확률로 바뀐다. 이것이 베이즈 통계의 큰 특징이다. 

 

베이즈 정리를 사용해 계산해 보기

P(감염) = 1/1000 ;  P(비감염) = 999/1000

이제 양성이라고 판정될 확률은

    1) 감염되었을 때 P(양성 | 감염) = 99/100

    2) 감염되지 않았을 때 P(양성 | 비감염) = 3/100

 

따라서, 양성이라고 판정되었을 때 감염되었을 사후 확률은 다음과 같다. 

P(감염 | 양성) = 0.032

 

이러한 사후 확률을 구하는 방법은 

P(감염 | 양성)

= P(감염) x P(양성 | 감염) / P(양성) 

= P(감염) x P(양성 | 감염) / { P(감염) x P(양성| 감염) + P(비감염) x P(양성 | 비감염) }

= 1/1000  x  99/100        /  { 1/1000  x   99 /100      +      999/1000  x  3/100 }

= 99/3096

= 0.032 

 

 

 

재검사에서 '다시 양성'인 경우, 감염 확률은 어떻게 될까? 

당신은 이 검사에서 양성이라고 판정되었지만, 실제로 감염되었을 확류은 3.2%였다. 그런데 재검사를 받고 다시 양성으로 판정되었다고 하자. 이제 당신이 실제로 감염되었을 확률은 얼마일까? 

 

2회째도 양성이면 감염 가능성은 농후해 진다. 

처음 검사에서 양성이라 판정되었던 3,096명 가운데 실제로 감염자는 99명이다. 이 99명의 감염자가 재검사를 받으면 약 98명은 양성이라고 올바로 판정된다(진짜 양성). 한편, 3,096명 가운데 실제 비감염자는 2997명이었다. 이 2997명의 비감염자가 재검사를 받으면 그 3%에 해당하는 약 90명은 양성으로 잘못 판정된다(가짜양성).

 

따라서, 2회째 검사에서 다시 양성이라고 판정되는 사람의 수는 약 98명(진짜 양성) + 약 90명(가짜양성) = 188명이다. 

당신은 이 188명 중 1명이다. 

2회째 양성 판정을 받은 사람이 실제로 감염되었을 확률은 98/188 ~ 52%가 된다. 59%를 넘어 실제로 감염되었을 가능성이 커진다. 

베이즈 정리를 사용해 계산해 보기

앞의 계산 식에서 0.1%를 3.2%로 바꾸고 베이즈 정리를 사용해 계산하면 된다. 

 

P(감염) = 99/3096 ;  P(비감염) = 2997/3096

이제 양성이라고 판정될 확률은

    1) 감염되었을 때 P(양성 | 감염) = 99/100

    2) 감염되지 않았을 때 P(양성 | 비감염) = 3/100

 

따라서, 양성이라고 판정되었을 때 감염되었을 사후 확률은 다음과 같다. 

P(감염 | 양성) = 0.52

 

이러한 사후 확률을 구하는 방법은 

P(감염 | 양성)

= P(감염) x P(양성 | 감염) / P(양성) 

= P(감염) x P(양성 | 감염) / { P(감염) x P(양성| 감염) + P(비감염) x P(양성 | 비감염) }

=  99/3096  x  99/100        /  { 99/3096  x   99 /100      +     2997/3096  x  3/100 }

=  9801/18792

= 0.52 

반응형
728x90
반응형

오차행렬을 confusion matrix (혼동행렬) 

개발된 모델을 평가하기 위해서는 오차행렬을 사용한다. 오차행렬은 실제로 참인지 거짓인지, 예측을 긍정으로 했는지, 부정으로 했는지에 따라 네 개의 경우의 수로 구분한 표이다. 머신러닝 / 딥러닝 모델을 평가하는데 중요한 기준을 제공한다.

 

* 분류 기준은 예측값!

     참양성(TP)    :  예측이 참(양성)이고 실제값도 참(양성) 일치

     거짓양성(FP) : 예측이 참(양성)이고 실제값은 거짓(음성) 불일치

     거짓음성(FN) : 예측이 거짓(음성)이고 실제값은 참(양성) 불일치

     참음성(TN)    :  예측이 거짓(음성)이고 실제값도 거짓(음성) 일치

   

모델 예측 결과
(평가 대상) 

    참 (양성)  거짓 (음성)  


실제 측정 결과
(평가 기준)
참 (양성)  TP (참양성) FN (거짓음성)
거짓 (음성)  FP (거짓양성)
TN (참음성)

 

오차행렬은 모델 예측이 얼마나 잘된 예측인지를 판단하는 데 중요한 기준을 제공한다. 오차행렬로부터 모델의 우수성을 평가하는 아래와 같은 여러 지표를 도출할 수 있다.

 

Accuracy (정확도 또는 정분류율)

전체 데이터중 정확하게 예측한 데이터의 비율

(TP + TN) / (TP + FP +TN + FN)  

 

Error Rate (오분류율)

전체 데이터 중 잘못 예측한 데이터의 비율, 1- accruracy

(FP + FN) / (TP + FP +TN + FN)  

 

Precision (정밀도)

참이라고 예측한 것(TP + FP)  중 실제 참(TP)인 정도

TP / (TP + FP)   

 

Recall (재현율) or Sensitivity (민감도) 또는 참 긍정률

실제값이 참인 관측값(TP+FN) 중 참이라고 바르게 예측(TP) 한 정도

TP / (TP + FN)

 

Specificity (특이도) 

실제값이 거짓인 관측값(FP + TN) 중 거짓으로 바르게 예측(TN)한 정도

TN / (FP + TN)  : 실제 음성인데 양성으로 분류된 비율 (참음성의 비율)

 

FP-Rate (거짓 긍정률)

실제값이 거짓인 관측값 중 참이라고 잘못 예측(FP)한 정도1-특이도

FP / (TN + FP) 

F1 score

2 / {1/정밀도 + 1/재현율}

 

정밀도와 민감도(재현율)의 조화평균으로 0~1 사이 값을 가짐

정밀도와 민감도 사이의 trade-off로서, 정밀도가 증가하면 민감도 감소, 민감도 증가하면 정밀도 감도

F-score 는 정밀도와 민감도가 한쪽으로 치우치지 않을 때 높은 값을 가짐

정밀도, 민감도, F-socre 를 종합적으로 분석하여 모델 성능을 판단해야 함. 

 

 

 

 

 

반응형
728x90
반응형

당신 앞에 놓인 것은 항아리 A일까, B일까? 

항아리 A와 항아리 B에는 각각 붉은색과 푸른색 구슬이 각각 20개씩 들어있다.  항아리 A에는 붉은 구슬 4개와 푸른 구슬 16개, 항아리 B에는 붉은 구슬 12개, 푸른 구슬 8개가 들어있다. 

 

눈을 가리고 어떤 사람이 항아리를 당신 앞에 둔다고 하자. 당신이 항아리에 손을 넣고 잘 저은 후, 1개의 구슬을 꺼냈더니 붉은 구슬이었다. 이때 당신 앞에 놓인 것은 항아리 A일까 항아리 B일까? 

 

이 문제는 붉은 구슬을 꺼냈다는 겨로가로 부터 원인(=어느 항아리가 놓였을까)을 추정하는 문제라고 생각할 수 있다. 베이즈 정리를 사용해 그 확률을 추정해 보자. 

 

베이즈 정리를 이용하면, '역확률'을 구할 수 있다. 

당신 앞에 항아리 A나 B가 놓일 확률은 공평하게 P(A) = P(B) =1/2 라고 하자. 이같이 판단 정보가 없을 때 평등하게 확실할 것 같다고 간주해 설정한 확류을 '사전 확률'이라고 한다. 

 

A가 놓였을때 붉은 구슬을 꺼낼 조건부 확률 P(red | A)를 구해보자.

A에는 구슬이 20개 있고 그 가운데 4개가 붉은색이므로 P(red | A) = 4/20 = 1/5 이다.

마찬가지로 B가 놓였을 때 붉은 구슬을 꺼낼 조건부 확률운 P(red | B) = 12/20 = 3/5 이다.

 

이들을 베이즈 확률식에 적용하면,

붉은 구슬을 꺼냈을 때 A가 놓였을 확률(즉 붉은 구슬을 꺼냈을 때의 사후확률)은 P(A | red)

= P(A) x P(red | A) / P(red)

= P(A) x P(red | A) / (P(A) x P(red | A) + P(B) x P(red | B)

1/2  x      1/5      / ( 1/2   x       1/5     + 1/2   x   3/5  ) 

= 1/4 = 25% 

붉은 구슬을 꺼냈을 때 B가 놓였을 확률(즉 붉은 구슬을 꺼냈을 때의 사후확률)은 P(B | red)

= 1 - P(A | red) = 1 - 1/4 = 3/4 = 75%

 

같은 방법으로, P(A | blue) 와 P(B | blue)도 구할 수 있다.

 

반응형
728x90
반응형

베이즈 정리를 사용하면, '결과'로 부터 '원인'을 추정할 수 있다.

베이즈 정리는 '확률'에 대한 정리이다. 

베이즈 정리 준비 단계로 확률을 다루는 수학의 기본을 다시 확인해 보자. 

확률이란 '어떤 일 또는 사건이 일어나기 쉬운 정도'를 나타내는 수치이다. 확률은 0에서 1까지의 값을 취하며, 1에 가까울수록 그 사건이 확실하게 일어나는 것을 의미한다. 

A라는 사건이 일어날 확률은 P(A)로 나타낸다. 

 

'조건부 확률'이란?

조건부 확률이란 '어떤 조건을 바탕으로 다른 사건이 일어날 확률'을 말한다. 

예를 들어, '52장의 트럼프 카드에서 뽑은 1장이 하트일 때, 그것이 K일 확률' 같은 것이고, P(K|하트) 로 나타낸다. 

{A가 일어났을 때 B가 일어날 확률} = {A와 B가 동시에 일어날 확률} / {A가 일어날 확률}

P(B|A) = P(A∩B) / P(A)

 

'베이즈 정리'란?

'복통에 걸린 원인을 알고 싶다', '성공한 요인은 무엇일까?' 등과 같이 어떤 결과가 있을 때 무엇이 원인이었는지를 알고 싶은 일은 흔히 있다. 그럴ㄸ 때 도움이 되는 도구가 베이즈 정리이다. 이를 이용하면 결과의 배후에 있는 원인을 찾아낼 수 있다. 

조건부 확률을 사용하면, '원인 A가 일어났을 때 결과 B가 일어날 확률'은 P(B|A)로 나타낼 수 있다. 한편 베이즈 정리는 원인과 결과의 순서를 거꾸로 한 P(A|B)를 구하는 정리이다. 이것은 '결과 B가 있을 때, 그것이 원인 A에 의한 것일 확률'을 의미한다. 

베이즈 정리를 사용해 구한 확률은 시간을 거스르는 것처럼 해서 결과에서 원인을 추정하는 확률이라 할 수 있다. 이 점에서 베이즈 정리에 근거한 베이즈 통계학에서는 이 확률을 가리켜 '역확률'이라고 부르기도 한다. 

 

P(원인 A | 결과 B) = P(원인 A) x P(결과 B | 원인 A) / P(결과 B)

여기서, P(원인 A | 결과 B)를 사후 확률,  P(원인 A) 을 사전 확률이라고 한다. 

P(결과 B)는 A 뿐만 아니라 A이외의 원인에 의해 결과 B가 일어날 확률도 모두 계산하고 그들을 모두 더해 얻어진다. 

 

 

라플라스에 의해 '베이즈 정리'는 확률론의 기초가 되었다. 

확률에 대한 수학적으로 생각하는 '확률론'의 기원은 17세기 도박 연구였다. 확률론의 창시자는 블레즈 파스칼(1623-1662)와 피에르 드 페르마(1607-1665)이고, 확률론을 확립한 인물이 수학자이자 천문학자이자 정치가였던 시몽 라플라스(1749-1827)였다. 나폴레옹은 사관학교 수학교수였던 라플라스에게 수학의 재능을 인정받아 사관학교 입학을 허가 받았다.

라플라스가 지적한 '이유 불충분의 원리'

'주사위를 1회 던져서 1의 눈이 나올 확률은? '

이렇게 질문을 받으면 우리는 '1/6'이라고 답한다. 특정한 눈이 나오기 쉽다고 간주할 충분한 이유가 없으면 어떤 눈이 나올 확률은 모두 같다. 이것으 '이유 불충분의 원리'라고 하며, 확률론의 기초 가운데 하나이다. 이 원리를 라플라스가 최초로 고안항였다. 

 

'불확실'한 현실에서는 특히 확률론이 필요

라플라스는  1814년에 출판한 <확률의 철학적 시론>에서 이렇게 말했다. 

 

'어떤 시점에서 자연을 움직이는 힘과 구성물의 상태 모두를 알고 있는 지서이 있다면,

그 지성에게는 불확실한 것이 아무것도 없고 과거와 미애를 모두 꿰뚫어볼 수 있을 것이다.'

 

이 지성을 '라플라스의 악마'라고 부르기도 한다. (라플라스 자신은 악마라는 말을 사용하지 않았다.)

현실의 인간 주위에는 불확실한 일들이 매우 많으며 과거와 미래 모두를 알아차리기는 어렵다. 그러므로 라플라스는 확률론이 더욱 필요하다고 말하고 싶었는지도 모른다.

 

라플라스는 이 책에서 6가지 원리를 제시했다. 거기에는 '이유 불출분의 원리', '덧셈 정리', '곱셈 정리' 등도 들어있다.

마지막 제6원리는 '관찰된 이에 여러가지 원인이 생각될 때, 각각의 확률을 구하는 원리'였다. 이것이 베이즈 정리이다. 

 

라플라스는 베이즈 정리를 확률론의 기초 원리로 자리 잡게 한 것이다. 최초의 발견자를 존중해 ' 베이즈 정리'라고 부르고 있지만, 라플라스야 말고 이 정리의 확립에 가장 크게 공한한 수학자이다. 

 

반응형
728x90
반응형

18세기의 목사 토머스 베이스는 확률에 대해 무엇을 생각했나?

영국 런던 남동쪽 턴브리지웰스 Tunbridge Wells 라는 마음에 토마스 베이즈(Thomas Bayes, 1702-1761)는 개신교 목사로 활동한 사람이다.  영국 에든버러 대학에서 논리학과 신학을 공부했다. 목사가 된 베이즈는 아이작 뉴턴(1642-1727)의 신봉자로 수학자로도 활동했다. 뉴턴이 발견한 미적분법(유율법)에는 엄밀성이 결여되어 있다는 비판이 일어날 때, 베이즈는 유율법을 옹호했다. 

 

베이즈 정리의 원형이 되는 개념은?

베이즈는 특히 확률 문제 에 흥미를 가졌고, 수학자로서 남긴 유일한 논문에 베이즈 정리의 원형이 되는 확률 개념이 적혀있다. 

"사물의 원인이 불명인 경우는 '하나가 아니라, 다수의 원인이 작용하고 있다.'고 가정하자. 그리고 다수의 원인에 대해 확률을 생각하고, 관찰된 결과를 사용해서 해결하면 된다." 

이 문장의 '원인에 대한 확률'에 주목한 그의 사고방식이 오늘 날 베이즈 통계의 기초가 되었다. 

 

베이즈 사후 친구가 논문을 세상에 알림

베이즈 사후 친구인 리처드 파라이스(Richard Price, 1723-1791)가 논문을 1763년에 출판하였다. 그리고 프랑스 수학자 피에르 시몽 라플라스(1749-1827)에 의해 베이즈 정리는 확률론의 기초로 자리 잡았다. 

 

 

반응형
728x90
반응형

어떤 가족의 자녀 2명이 있다. 그 가운데 적어도 1명은 아들이다. 이때 2명 모두 아들일 확률은?

미국 수학자 마틴 가드너(Martin Gardener, 1914~2010)가 1959년 Scientific American 저널의 칼럼에 실린 문제

직감적으로는 1/2로 생각되지만, 

1명이 아들이이라고 알려져 이으므로, 2명 모두 아들인지 아닌지는 다른 1명이 아들인지 딸인지로 정해진다. 아들인지 딸인지 각각의 확률은 1/2이다. 

하지만, 가드너의 답은 1/3 이었다. 

왜 직감과 다른 답이 나올까? 

반응형

네 가지 경우로 나누어 생각해 보자

'적어도 1명은 아들'이라는 조건이 없으면, '형-남동생', '오빠-여동생', '누나-남동생', '언니-여동생' 의 4가지 경우를 생각할 수 있다. 어느 경우도 확률은 같다. 

여기서, '적어도 1명은 아들'이라는 정보가 주어졌으므로, '언니-여동생'의 경우는 제외되고, 남는 것은 3가지 경우 뿐이다. 

이렇게 남은 3가지 경우 가운데 2명 모두 두 아들인 것은 '형-남동생'의 1가지 경우 밖에 없다. 따라서, 구하는 확률은 1/3이다. 

 

반응형
728x90
반응형

가설검정의 기본원리

가설검정(hypothesis testing) : 표본을 기초로 얻은 검정통계량의 관찰값을 이용하여 모집단분포 또는 모수에 대해 이미 설정된 가설에 대한 타당성을 판정하는 과정

표본에 근거하여 타당성을 조사한 결과 이미 설정한 가설이 거짓으로 판정되면 그 가설을 기각(reject)한다 하고,

설정한 가설이 타당성이 있거나 부정하지 못하면 그 가설을 채택(accept)한다고 한다.

 

거짓이 명확히 규명될 때까지 참인 것으로 인정되는 모수에 대한 가설, 반증적 방법으로 증명하기 위해 기각할 것을 바라면서 설정하는 가설을 귀무가설(null hypothesis)이라 하고 H0으로 나타낸다.

귀무가설과 대립되거나 이 가설을 부정하는 가설로서 강력한 증거로 입증하고자 하는 가설을 대립가설(alternative hypothesis)이라 하고 H1로 나타낸다.

 

검정통계량(testing statistic) : 두 가설의 진위여부를 판정하기 위해 표본을 이용하여 얻은 통계량

기각역(critical region): 귀무가설 H0 을 기각시키는 검정통계량의 관찰값이 포함되는 영역

채택역(acceptane region): 귀무가설을 기각시키지 못하는 검정통계량의 관찰값이 포함되는 영역

 

 

 

 

 

 

 

 

모평균의 검정

 

 

 

반응형
728x90
반응형

1. 가설검정의 기본원리 

 

표본을 기초로 얻은 검정통계량의 관찰값을 이용하여 모집단분포 또는 모수에 대해 이미 설정된 가설에 대한 타당성을 판정하는 과정을 가설검정(hypothesis testing)이라 한다.

표본에 근거하여 타당성을 조사한 결과 이미 설정한 가설이 거짓으로 판정되면 가설을 기각(reject)한다 하고, 설정한 가설이 타당성이 있거나 부정하지 못하면 가설을 채택(accept)한다고 한다.

 

거짓이 명확히 규명될 때까지 참인 것으로 인정되는 모수에 대한 가설, 반증적 방법으로 증명하기 위해 기각할 것을 바라면서 설정하는 가설을 귀무가설(null hypothesis)이라 하고 H0으로 나타낸다.

귀무가설과 대립되거나 이 가설을 부정하는 가설로서 강력한 증거로 입증하고자 하는 가설을 대립가설(alternative hypothesis)이라 하고 H1로 나타낸다.

 

두 가설의 진위여부를 판정하기 위해 표본을 이용하여 얻은 통계량을

검정통계량(testing statistic)이라 한다.

귀무가설 H0 을 기각시키는 검정통계량의 관찰값이 포함되는 영역을

기각역(critical region), 귀무가설을 기각시키지 못하는 검정통계량의 관찰값이 포함되는 영역을 채택역(acceptane region)이라 한다.

 

귀무가설의 진위 여부를 판정하기 위해 추출된 표본으로부터 얻은 정보를 기초로 두 가지 가설 중에서 어느 하나를 선택하므로 오류가 발생할 수 있다.

 

 

 

 

 

 

 

 

2. 모평균의 검정

 

 

 

 

3. 모비율의 검정

 

4. 모분산의 검정

 

 

5. 적합도 검정

 

 

 

 

6. 독립성 검정

 

 

 

 

반응형
728x90
반응형

1. 추정의 개념

통계 추론(statistical inference) : 표본으로부터 얻은 정보를 이용하여 과학적으로 미지의 모수를 추론하는 과정
추정(estimation) :  표본평균, 표본비율, 표본분산 등과 같은 표본으로부터 얻은 통계량을 이용하여 모수를 추론하는 과정

점추정 (point estimation) : 모수에 대한 추정량은 표본추출에 따라 가변적이므로 최적의 추정량을 설정하여 가장 보편타당한 추정값을 얻어야 하며, 이와 같은 최적의 추정값을 구하는 과정

구간추정(interval estimation) : 미리 정해진 어느 정도의 확신을 가지고 모수 q의 참값이 포함될 것으로 믿어지는 구간을 추정하는 방법

 

[Note]  바람직한 추정량의 성질

1. 불편성 unbiasedness

   모수의 추정량의 기대값이 모수가 되는 성질. 추정량의 기댓값이 모수의 참값과 같아지는 성질

2. 일치성 Consistency
   표본의 크기가 커짐에 따라 또는 충분히 크다면, 추정량이 확률적으로 모수에 가깝게 수렴하는 성질. 
3. 효율성 또는 유효성 Efficiency
   추정량이 불편추정량이고, 그 분산이 다른 추정량에 비해 상대적으로 작은 분산을 갖는 성질
4. 충분성 Sufficiency

    모수에 대하여 가능한 많은 표본정보를 내포하고 있는 추정량의 성질

 

 

 

 

2. 최대우도추정

 

 

 

3. 모평균의 구간추정

 

 

 

 

 

 

 

4. 모비율의 구간추정

 

 

 

5. 표본의 크기 결정

 

 

6. 모분산의 구간추정

 

 

 

반응형
728x90
반응형

표본분포 

모분산을 알고 있는 비현실적인 경우 

● 아래와 같은 확률분포를 갖는 모집단으로부터 크기가 36인 확률표본을 추출한다고 하자. 이 때, P(3.5 < X ≤ 4.5) 를 구하라. 

x 1 2 3 4 5 6
f(x) 0.3 0.1 0.1 0.1 0.3 0.1
x <- c(1, 2, 3, 4, 5, 6) 
f_x <- c(0.3, 0.1, 0.1, 0.1, 0.3, 0.1)
mean <- sum(x * f_x)  # 모평균
var <- sum(x^2 * f_x) - mean^2    # 모분산
mean; var
#모평균과 모분산을 이용하여, 표본평균과 표본분산 계산
S_mean <- mean
S_var <- round(var/36, 3)
S_mean; S_var
# z 값 계산
(z_low <- round((3.5 - S_mean)/sqrt(S_var), 3))
(z_high <- round((4.5 - S_mean)/sqrt(S_var), 3))
round(pnorm(z_high) - pnorm(z_low), 4)

●  모비율 0.6인 모집단으로부터 크기 36인 표본을 취했을 때 표본비율 p가 0.5와 0.7 사이일 확률은?

p <- 0.6; n <- 36
sd<- round(sqrt(p* (1-p) / n), 2)
sd
(z_low <- (0.5 - p) /sd)
(z_high <- (0.7 - p) /sd) 
round(pnorm(z_high) - pnorm(z_low), 4)

 

카아제곱분포

● Z ~ N(0,1) 일때, P(Z2 < 3.841)을 구하시오. 

# pnorm(분위수, 평균, 표준편차)를 이용하여 정규분포로 부터 P(-sqrt(3.841 < Z < sqrt(3.841)를 구함.
# 평균과 표준편차를 생략하면 표준정규분포로 부터 계산함
pnorm(sqrt(3.841)) - pnorm(-sqrt(3.841))
# 또는
# pchisq(분위수, 자유도)를 이용하여 카이제곱분포로 부터 P[x^2(1) < 3.841)을 구함
round(pchisq(3.841, 1),2 )

● 어떤 회사에서 생산되는 철근의 장력은 분산 σ2 = 100인 정규분포를 따른다. 11개의 강철빔들을 무작위로 추출할 때, 그 장력의 표본분사 S2이 205보다 클 확률은?

p <- 0.6; n <- 36
(sd<- round(sqrt(p* (1-p) / n), 2))
(z_low <- (0.5 - p) /sd)
(z_high <- (0.7 - p) /sd) 
round(pnorm(z_high) - pnorm(z_low), 4)

 

T 분포

모분산을 알지 못하는 현실적인 경우 

● 어느 학교의 학생들의 IQ는 평균 120인 정규분포를 따른다. 25명의 학생들을 무작위로 추출했을 때, IQ의 표준편차는 S=6이었다. (1) 표본평균 X가 117보다 크지 않을 확률을 구하여라. 

mean <-120; sd <- 6; n <- 25 
x <-117 
t <- (x- mean) / (sd/sqrt(n))
t
round(pt(t, n-1), 2)

 

반응형
728x90
반응형

 

 

 

반응형
728x90
반응형

1. 표본 분포

모분산이 알려진 경우 (비현실적, 이상적인 경우)

X1, X2 가 취할 수 있는 값은 각각 0, 1, 2, 3 이다. 표본평균 X의 확률분포를 구하기 위하여 X1, X2 의 결합분포를 생각하면, 위 표와 같이 나타낼 수 있다. 

한편,  X1, X2 가 취할 수 있는 값은 각각 0, 1, 2, 3 이므로, X의 관찰 가능한 값은 0, 0.5, 1, 1.5, 2, 2.5, 3 이므로, X1과 X2사이에는 아래와 같은 관계가 있다. 

 X=0    : (X1, X2 ) = (0, 0)

 X=0.5 : (X1, X2 ) = (0, 1), (1, 0)

 X=1.0 : (X1, X2 ) = (0, 2), (1, 1), (2, 0)

 X=1.5 : (X1, X2 ) = (0, 3), (1, 2), (2, 1), (3, 0)

 X=2.0 : (X1, X2 ) = (1, 3), (3, 1), (2, 2)

 X=2.5 : (X1, X2 ) = (2, 3), (3, 2) 

 X=3.0 : (X1, X2 ) = (3, 3)

따라서, X의 확률분포는 아래 표와 같다.

 

 

중심극한 정리와 표본평균의 표본분포 비교

(참고) 표본 비율을 특정할 수 없는 경우, 1/2 로 지정한다. 

 

 

 

2. 카이제곱분포

모평균을 추정하기 위해 표본평균을 사용

모분산을 추정하기 위해 표본분산을 사용

모평균 추론을 위해서 표본평균의 분포를 알아야

모분산 추론을 위해서 표본분산의 분포를 알아야

 

카이제곱분포

감마분포에서 α=n/2, β=2 인 특수한 경우를 자유도 n인 카이분포라고 한다.

모순산이 특정한 값을 갖는지 여부를 검정하는데 사용하는 분포

두 범주형 변수간의 연관성을 검정하는데 주로 사용

 

 

카이제곱분포 만들기

1. 표준정규분포에서

2. 변수 한 개(자유도 1) 를 랜덤하게 추출

3. 그 변수를 제곱해서 히스토그램으로 표현

이 과정을 반복하면, 아래 양의 히스토그램.

 

한번에 추출하는 변수가 2개 이상, 즉 자유도 2개 이상이면, 변수들을 각각 제곱해서 더함. 따라서, 더해주는 변수가 많아질 수록 정규분포에 접근(중심극한 정리)

카이제곱 분포 응용

일반적으로 오차(error)는 정규분포로 만들어 두기 때문에 오차 또는 편차를 분석할 때 유용.

샘플수가 무수히 많고 합을 이용해 오차를 정의하는 경우, 오차의 분포를 정규분포를 따름(중심극한 정리)

오차나 편차가 우연히 발생할 수 있다고 볼 수 있을 만한 수준인지 아닌지 판별할 수 있다.
그림 예. 회귀분석 시, 샘플링 데이터는 정규분포에서 랜덤하게 샘플링 되어 얻은 값이라고 가정

 

 

 

 

3. T 분포 

모분산이 알려지지 않은 경우 (현실적인 경우)

 

 

 

 

정리

반응형
728x90
반응형

베르누이 분포와 이항분포

● 앞면이 나올 가능성이 1/3인 왜곡된 동전을 반복해서 3번 던질 때 확률변수 X를 앞면이 나온 횟수라 하자. 이 때 확률변수 X의 확률 분포를 구하라. 

#MASS 패키지 사용
#dbinom(성공횟수, 시행횟수, 성공확률)을 이용해 이항분포로부터 P(X = x)를 구한다. 
library(MASS)
n =3; p = 1/3
xx <- dbinom(0:3, n, p)  
#names()를 이용하여 확률분포표의 형태로 출력
names(xx) <- c("0", "1", "2", "3")
xx
#as.fractions()를 이용하여 소수를 분수로 변환
frac_xx <- as.fractions(xx)
names(frac_xx) <- c("0", "1", "2", "3")
frac_xx

● 한 개의 공정한 주사위를 4번 던질 때 1의 눈이 나타날 확률분포를 구하여라. 

n =4; p = 1/6
xx <- dbinom(0:4, n, p)
names(xx)=c("0", "1", "2", "3", "4")
round(xx, 3)

 전 1개를 5회 던질 때, 앞면이 나오는 횟수를 확률변수 X라고 할 때, X의 평균과 분산, P(X≤2)를 구하시오. 

#distrEx 패키지 내 Binom(표본크기, 성공확률)로 이항분포를 정의
#E(X), var(X)로 평균과 분산을 구함. 
library(distrEx)
x <- c(0, 1, 2, 3, 4, 5)
xx <- Binom(5, 0.5)
as.fractions(E(xx))
as.fractions(var(xx))

또는

x <- c(0, 1, 2, 3, 4, 5)
xx <- dbinom(0:5, 5, 0.5)
xx
as.fractions(mean_xx <- sum(x * xx))  
as.fractions(var_xx <- sum((x - mean_xx)^2 * xx))
as.fractions(pbinom(2, 5, 0.5))

 

포아송 분포

어떤 복권 판매점에서는 매일 10시와 11시 사이에 고객이 평균 60명씩 몰려든다고 하자. 그렇다면 10시와 11시 사이에 1분당 2명이 도착할 확률은?

# 1분당 평균 도착할 확률은 lambda
time = 60; people = 60
lambda = people/time
#dpois(발생횟수, 평균)을 이용, 포아송 분포로 부터 P(X=2)를 구함. 
dpois(2,lambda)

 어떤 공장에서 생산된 물건의 불량율이 0.0001이다. 그 공장의 생산라인에서 50,000개를 임의로 추출하여 2개 이하의 불량품이 나올 확률은? 

n = 50000; p = 0.0001
lambda = n * p 
# ppois(분위수, 평균발생횟수)를 이용하여 포아송 분포로 부터 P(X<=2)를 구함
ppois(2, lambda)
# 또는 
# pbinom(분위수, 표본 크기, 성공 확률)을 이용하여 이항분포로부터 P(X<=2)를 구함. 
pbinom(2, n, p)

 

정규분포 

통계학과 학생의 영어성적은 N(75, 9)인 정규분포를 따른다고 한다. 어느 한 학생의 영어성적이 80점 이상일 확률을 구하라. 

x <- 80
mean <- 75
sd <-3
z <- (x-mean)/sd
round(z,2)
#pnorm(분위수)를 이용 정규분포로 부터 P(X >= 80)을 구하기 위해서, 1-P(X <= 80)을 이용
round(1-pnorm(z),4)
반응형
728x90
반응형

포아송 분포

어느 제철공장에서 일 년 동안 발생하는 인명사고 건수의 평균이 3건이라고 할 때, 일 년 동안 한 건 이하의 인명사고가 일어날 (1) 확률을 구하고, (2) 기대값과 분산을 구하라.

풀이: 구하고자 하는 확률은 한 건 이하의 인명 사고 이므로, 인명사고 건수를 확률변수 X 로 두면, 구하고자 하는 확률은 P(X≤1)이다.  문제에서, 확률 변수 X는 인명사고 건수의 평균 l=3 인 포아송 분포를 따른다고 했으므로,

 

(1) 확률         P(X≤1) = P(X=0) + P(X=1) = exp(-3) 30 / 0! + exp(-3) 31 / 1!   = 0.04979 + 0.14936 = 0.19915

 

(2) 기대값     람다=3 포아송 분포를 따르므로 X~P(3)    따라서, E(X) = 3; Var(X) = 3      

어느 영한사전은 한 페이지에 오타가 평균적으로 2개있다. 이 사전에서 어느 한 페이지를 보았을 때 오타가 3개 이상 있을 (1) 확률 (2) 기대값과 분산은?

풀이:

확률변수 X는 오타의 평균이므로 X l =2포아송 분포를 따르므로 X~(2)

P(X≥3) = 1 – P(X<3)  = 1 – {P(x=0) + P(x=1) + P(x=2)}  = 1 –  {exp(-2) 2^0 / 0!  +  (exp(-2) 2^1 / 1!  + (exp(-2) 2^2 / 2! }

                  = 1 – (0.1353 + 0.2707 +0.2707)   = 0.3233     따라서, E(X) = 람다 =2; Var(X) = 2

 

정규 분포

● 어떤 전구는 평균 수명이 790시간이고, 표준편차가 40시간인 정규분포를 따른다. 16개의 전구를 추출할 경우 평균수명이 775시간 보다 짧을 확률을 구하시오 

답: u= 790, sigma=40,  n= 16   P(X<= 775) = 1-P(Z<1.5) = 1-0.9332 = 0.0668

 

● 앞면이 나올 확률이 0.5인 동전을 100번 던졌을 경우, 앞면이 50번 이상 나올 확률은? 

풀이:  이항분포의 정규근사 조건 np>5이고 n(1-p)>5를 만족하므로 E(X) = np =50, Var(X) =npq = 25

따라서 P(X>50) = P(Z > (50-50)/5 = 0) = 1-P(Z<0) =   0.5

 

 

 

반응형
728x90
반응형

이산형 확률분포들의 개념

균일분포(이산형)

확률변수 X는 x1부터 xn까지 균일한 크기인 1/N의 확률을 갖는 분포

베르누이 시행

동등한 실험조건하에서 실험의 결과가 단지 두 가지의 가능한 결과(성공,실패)만 갖는 분포

이항분포*

성공의 확률이 p인 베르누이 시행을 독립적으로 n번 반복 시행했을 때 성공의 횟수에 대한 분포

포아송 분포*

단위시간(면적, 공간) 내에서 발생하는 어떤 사건의 횟수에 대한 분포

기하분포*

성공의 확률이 p인 베르누이 시행을 처음으로 성공할 때까지의 시행횟수에 대한 분포

음이항부포

성공의 확률이 p인 베르누이 시행을 독립적으로 반복시행할 때 k번 성공할 때 까지의 시행횟수에 대한 분포

초기하분포

크기  N의 유한 모집단 중 크기 n의 확률표본을 뽑을 경우, N개 중 k개는 성공으로 나머지 (N-k)개는 실패로 분류하여 비복원으로 뽑을 때, 성공의 횟수에 대한 분포

 

연속형 확률분포들의 개념

균일분포(연속형)

구간 (a,b)에서 값들이 나타날 가능성이 균일한 분포

정규분포*

평균은 곡선의 중심위치를 결정하고, 표준편차는 그 곡선의 퍼진 정도를 나타내는 종모양의 분포

지수분포*

어떤 사건이 포아송 분포에 의해서 발생될 때 지정된 시점으로부터 이 사건이 일어날 때 까지 걸린 시간을 측정한 분포

감마분포*

지수분포의 개념을 확장하여 a번의 사건이 발생할 때까지의 대기시간 분포

카이제곱분포

모분산이 특정한 값을 갖는지 여부를 검정하거나 두 범주형 변수간의 연관성을 검정하는데 사용되는 분포

t분포*

소표본에서 정규분포를 따르는 집단의 평균에 대한 가설검정 또는 두 집단의 평균 차이검정에 사용되는 분포

F분포

집단간 분산비 검정에 주로 사용되는 분포

 

반응형

+ Recent posts