728x90
반응형

민감도 99% 검사에서 '양성'으로 판정되면 실제로 감염되었을까? 

감염자 100명에 대해 99명을 올바로 양성으로 판정

인구 10만 명당 100명의 감염자가 존재하는 감염증이 있다. 어떤 감염 검사를 했을 때 감염되었을 경우에는 '양성', 감염되지 않았을 경우에는 '음성'이라고 판정된다. 

 

단, 이 감염 검사에는 오류가 항상 따라 다닌다. 실제로는 감염되지 않은 100명의 비감염자가 이 검사를 받으면 97명은 올바로 음성으로 판정된다(진짜 음성). 그러나, 3명은 양성으로 잘못 판정된다(가짜 양성). 이것을 전문용어로 '특이도 97%'라고 한다. 

한편, 실제로 감염된 100명의 감염자가 이 검사를 받으면 99명은 올바로 양성으로 판정된자(진짜 양성). 그러나 1명은 음성으로 잘못 판정된다(가짜 음성). 이것을 '민감도 99%'라고 표현한다.

특이도 감도 개념은 아래 링크 참조

https://aeir.tistory.com/entry/%ED%86%B5%EA%B3%84-%EC%98%A4%EC%B0%A8%ED%96%89%EB%A0%AC-confusion-matrix

 

'양성'으로 판정되었다면 실제로 감염되었을 확률은?

당신이 이 검사를 받았더니 '양성'이라고 판정되었다. 이때 당신이 실제로 감염되었을 확률은 어느 정도일까? '민감도99%

의 검사'에서 양성이라고 판정되었다면 거의 확실하게 감염되었다고 생각하기 쉽다. 그러나, 실제로 계산해 보면 그 생각은 잘못된 생각이다. 

 

 

베이즈 정리를 사용하면, '실제 감염되었을 확률'을 구할 수 있다. 

10만 명이 검사를 받으면 몇 사람이 양성으로 판정될까?

10만 명 가운데 실제로 감염자는 100명이다. 이 100명이 검사를 받으면 99명이 올바로 양성이라고 판정된다(진짜 양성).

한편, 10만 명 중 실제로 비감염자는 9,900명이다. 이 사람들이 모두 검사를 받으면 그 중 3%에 해당하는 2,997명이 양성이라고 잘못 판정된다(거짓 양성).

따라서, 양성이라고 판정된 사람의 합계는 99명(진짜양성) + 2,997명(거짓 양성) = 3,096명이다. 

 

실제 감염되었을 확률은 약 3.2%

이 검사에서 양성으로 판정받은 3,096명 가운데 실제로 감염된 사람들은 진짜 양성인 99명이므로, 구하는 확률은 99/3,096 ~ 3.2%이다. 양성이라고 판정되었더라도 실제 감염되었을 확률은 불과 3% 정도이다. 

 

양성 판정으로 감염률은 0.1%에서 3.2%로 상승

원래 이 감염증의 감염률(사전 확률)은 0.1%로서, 검사를 받기 전 당신은 0.1%의 확률로 감염되어 있음을 의미했다.

그러나, 이 검사를 받고 양성이라고 판정된 결과, 당신의 감염확률은 약 3.2%(사후 확률)로 상승한다.

 

이처럼 어떤 일이 일어남에 따라 사전 확률은 사후 확률로 바뀐다. 이것이 베이즈 통계의 큰 특징이다. 

 

베이즈 정리를 사용해 계산해 보기

P(감염) = 1/1000 ;  P(비감염) = 999/1000

이제 양성이라고 판정될 확률은

    1) 감염되었을 때 P(양성 | 감염) = 99/100

    2) 감염되지 않았을 때 P(양성 | 비감염) = 3/100

 

따라서, 양성이라고 판정되었을 때 감염되었을 사후 확률은 다음과 같다. 

P(감염 | 양성) = 0.032

 

이러한 사후 확률을 구하는 방법은 

P(감염 | 양성)

= P(감염) x P(양성 | 감염) / P(양성) 

= P(감염) x P(양성 | 감염) / { P(감염) x P(양성| 감염) + P(비감염) x P(양성 | 비감염) }

= 1/1000  x  99/100        /  { 1/1000  x   99 /100      +      999/1000  x  3/100 }

= 99/3096

= 0.032 

 

 

 

재검사에서 '다시 양성'인 경우, 감염 확률은 어떻게 될까? 

당신은 이 검사에서 양성이라고 판정되었지만, 실제로 감염되었을 확류은 3.2%였다. 그런데 재검사를 받고 다시 양성으로 판정되었다고 하자. 이제 당신이 실제로 감염되었을 확률은 얼마일까? 

 

2회째도 양성이면 감염 가능성은 농후해 진다. 

처음 검사에서 양성이라 판정되었던 3,096명 가운데 실제로 감염자는 99명이다. 이 99명의 감염자가 재검사를 받으면 약 98명은 양성이라고 올바로 판정된다(진짜 양성). 한편, 3,096명 가운데 실제 비감염자는 2997명이었다. 이 2997명의 비감염자가 재검사를 받으면 그 3%에 해당하는 약 90명은 양성으로 잘못 판정된다(가짜양성).

 

따라서, 2회째 검사에서 다시 양성이라고 판정되는 사람의 수는 약 98명(진짜 양성) + 약 90명(가짜양성) = 188명이다. 

당신은 이 188명 중 1명이다. 

2회째 양성 판정을 받은 사람이 실제로 감염되었을 확률은 98/188 ~ 52%가 된다. 59%를 넘어 실제로 감염되었을 가능성이 커진다. 

베이즈 정리를 사용해 계산해 보기

앞의 계산 식에서 0.1%를 3.2%로 바꾸고 베이즈 정리를 사용해 계산하면 된다. 

 

P(감염) = 99/3096 ;  P(비감염) = 2997/3096

이제 양성이라고 판정될 확률은

    1) 감염되었을 때 P(양성 | 감염) = 99/100

    2) 감염되지 않았을 때 P(양성 | 비감염) = 3/100

 

따라서, 양성이라고 판정되었을 때 감염되었을 사후 확률은 다음과 같다. 

P(감염 | 양성) = 0.52

 

이러한 사후 확률을 구하는 방법은 

P(감염 | 양성)

= P(감염) x P(양성 | 감염) / P(양성) 

= P(감염) x P(양성 | 감염) / { P(감염) x P(양성| 감염) + P(비감염) x P(양성 | 비감염) }

=  99/3096  x  99/100        /  { 99/3096  x   99 /100      +     2997/3096  x  3/100 }

=  9801/18792

= 0.52 

728x90
반응형
728x90
반응형

오차행렬을 confusion matrix (혼동행렬) 

개발된 모델을 평가하기 위해서는 오차행렬을 사용한다. 오차행렬은 실제로 참인지 거짓인지, 예측을 긍정으로 했는지, 부정으로 했는지에 따라 네 개의 경우의 수로 구분한 표이다. 머신러닝 / 딥러닝 모델을 평가하는데 중요한 기준을 제공한다.

 

* 분류 기준은 예측값!

     참양성(TP)    :  예측이 참(양성)이고 실제값도 참(양성) 일치

     거짓양성(FP) : 예측이 참(양성)이고 실제값은 거짓(음성) 불일치

     거짓음성(FN) : 예측이 거짓(음성)이고 실제값은 참(양성) 불일치

     참음성(TN)    :  예측이 거짓(음성)이고 실제값도 거짓(음성) 일치

   

모델 예측 결과
(평가 대상) 

    참 (양성)  거짓 (음성)  


실제 측정 결과
(평가 기준)
참 (양성)  TP (참양성) FN (거짓음성)
거짓 (음성)  FP (거짓양성)
TN (참음성)

 

오차행렬은 모델 예측이 얼마나 잘된 예측인지를 판단하는 데 중요한 기준을 제공한다. 오차행렬로부터 모델의 우수성을 평가하는 아래와 같은 여러 지표를 도출할 수 있다.

 

Accuracy (정확도 또는 정분류율)

전체 데이터중 정확하게 예측한 데이터의 비율

(TP + TN) / (TP + FP +TN + FN)  

 

Error Rate (오분류율)

전체 데이터 중 잘못 예측한 데이터의 비율, 1- accruracy

(FP + FN) / (TP + FP +TN + FN)  

 

Precision (정밀도)

참이라고 예측한 것(TP + FP)  중 실제 참(TP)인 정도

TP / (TP + FP)   

 

Recall (재현율) or Sensitivity (민감도) 또는 참 긍정률

실제값이 참인 관측값(TP+FN) 중 참이라고 바르게 예측(TP) 한 정도

TP / (TP + FN)

 

Specificity (특이도) 

실제값이 거짓인 관측값(FP + TN) 중 거짓으로 바르게 예측(TN)한 정도

TN / (FP + TN)  : 실제 음성인데 양성으로 분류된 비율 (참음성의 비율)

 

FP-Rate (거짓 긍정률)

실제값이 거짓인 관측값 중 참이라고 잘못 예측(FP)한 정도1-특이도

FP / (TN + FP) 

F1 score

2 / {1/정밀도 + 1/재현율}

 

정밀도와 민감도(재현율)의 조화평균으로 0~1 사이 값을 가짐

정밀도와 민감도 사이의 trade-off로서, 정밀도가 증가하면 민감도 감소, 민감도 증가하면 정밀도 감도

F-score 는 정밀도와 민감도가 한쪽으로 치우치지 않을 때 높은 값을 가짐

정밀도, 민감도, F-socre 를 종합적으로 분석하여 모델 성능을 판단해야 함. 

 

 

 

 

 

728x90
반응형
728x90
반응형

당신 앞에 놓인 것은 항아리 A일까, B일까? 

항아리 A와 항아리 B에는 각각 붉은색과 푸른색 구슬이 각각 20개씩 들어있다.  항아리 A에는 붉은 구슬 4개와 푸른 구슬 16개, 항아리 B에는 붉은 구슬 12개, 푸른 구슬 8개가 들어있다. 

 

눈을 가리고 어떤 사람이 항아리를 당신 앞에 둔다고 하자. 당신이 항아리에 손을 넣고 잘 저은 후, 1개의 구슬을 꺼냈더니 붉은 구슬이었다. 이때 당신 앞에 놓인 것은 항아리 A일까 항아리 B일까? 

 

이 문제는 붉은 구슬을 꺼냈다는 겨로가로 부터 원인(=어느 항아리가 놓였을까)을 추정하는 문제라고 생각할 수 있다. 베이즈 정리를 사용해 그 확률을 추정해 보자. 

 

베이즈 정리를 이용하면, '역확률'을 구할 수 있다. 

당신 앞에 항아리 A나 B가 놓일 확률은 공평하게 P(A) = P(B) =1/2 라고 하자. 이같이 판단 정보가 없을 때 평등하게 확실할 것 같다고 간주해 설정한 확류을 '사전 확률'이라고 한다. 

 

A가 놓였을때 붉은 구슬을 꺼낼 조건부 확률 P(red | A)를 구해보자.

A에는 구슬이 20개 있고 그 가운데 4개가 붉은색이므로 P(red | A) = 4/20 = 1/5 이다.

마찬가지로 B가 놓였을 때 붉은 구슬을 꺼낼 조건부 확률운 P(red | B) = 12/20 = 3/5 이다.

 

이들을 베이즈 확률식에 적용하면,

붉은 구슬을 꺼냈을 때 A가 놓였을 확률(즉 붉은 구슬을 꺼냈을 때의 사후확률)은 P(A | red)

= P(A) x P(red | A) / P(red)

= P(A) x P(red | A) / (P(A) x P(red | A) + P(B) x P(red | B)

1/2  x      1/5      / ( 1/2   x       1/5     + 1/2   x   3/5  ) 

= 1/4 = 25% 

붉은 구슬을 꺼냈을 때 B가 놓였을 확률(즉 붉은 구슬을 꺼냈을 때의 사후확률)은 P(B | red)

= 1 - P(A | red) = 1 - 1/4 = 3/4 = 75%

 

같은 방법으로, P(A | blue) 와 P(B | blue)도 구할 수 있다.

 

728x90
반응형
728x90
반응형

베이즈 정리를 사용하면, '결과'로 부터 '원인'을 추정할 수 있다.

베이즈 정리는 '확률'에 대한 정리이다. 

베이즈 정리 준비 단계로 확률을 다루는 수학의 기본을 다시 확인해 보자. 

확률이란 '어떤 일 또는 사건이 일어나기 쉬운 정도'를 나타내는 수치이다. 확률은 0에서 1까지의 값을 취하며, 1에 가까울수록 그 사건이 확실하게 일어나는 것을 의미한다. 

A라는 사건이 일어날 확률은 P(A)로 나타낸다. 

 

'조건부 확률'이란?

조건부 확률이란 '어떤 조건을 바탕으로 다른 사건이 일어날 확률'을 말한다. 

예를 들어, '52장의 트럼프 카드에서 뽑은 1장이 하트일 때, 그것이 K일 확률' 같은 것이고, P(K|하트) 로 나타낸다. 

{A가 일어났을 때 B가 일어날 확률} = {A와 B가 동시에 일어날 확률} / {A가 일어날 확률}

P(B|A) = P(A∩B) / P(A)

 

'베이즈 정리'란?

'복통에 걸린 원인을 알고 싶다', '성공한 요인은 무엇일까?' 등과 같이 어떤 결과가 있을 때 무엇이 원인이었는지를 알고 싶은 일은 흔히 있다. 그럴ㄸ 때 도움이 되는 도구가 베이즈 정리이다. 이를 이용하면 결과의 배후에 있는 원인을 찾아낼 수 있다. 

조건부 확률을 사용하면, '원인 A가 일어났을 때 결과 B가 일어날 확률'은 P(B|A)로 나타낼 수 있다. 한편 베이즈 정리는 원인과 결과의 순서를 거꾸로 한 P(A|B)를 구하는 정리이다. 이것은 '결과 B가 있을 때, 그것이 원인 A에 의한 것일 확률'을 의미한다. 

베이즈 정리를 사용해 구한 확률은 시간을 거스르는 것처럼 해서 결과에서 원인을 추정하는 확률이라 할 수 있다. 이 점에서 베이즈 정리에 근거한 베이즈 통계학에서는 이 확률을 가리켜 '역확률'이라고 부르기도 한다. 

 

P(원인 A | 결과 B) = P(원인 A) x P(결과 B | 원인 A) / P(결과 B)

여기서, P(원인 A | 결과 B)를 사후 확률,  P(원인 A) 을 사전 확률이라고 한다. 

P(결과 B)는 A 뿐만 아니라 A이외의 원인에 의해 결과 B가 일어날 확률도 모두 계산하고 그들을 모두 더해 얻어진다. 

 

 

라플라스에 의해 '베이즈 정리'는 확률론의 기초가 되었다. 

확률에 대한 수학적으로 생각하는 '확률론'의 기원은 17세기 도박 연구였다. 확률론의 창시자는 블레즈 파스칼(1623-1662)와 피에르 드 페르마(1607-1665)이고, 확률론을 확립한 인물이 수학자이자 천문학자이자 정치가였던 시몽 라플라스(1749-1827)였다. 나폴레옹은 사관학교 수학교수였던 라플라스에게 수학의 재능을 인정받아 사관학교 입학을 허가 받았다.

라플라스가 지적한 '이유 불충분의 원리'

'주사위를 1회 던져서 1의 눈이 나올 확률은? '

이렇게 질문을 받으면 우리는 '1/6'이라고 답한다. 특정한 눈이 나오기 쉽다고 간주할 충분한 이유가 없으면 어떤 눈이 나올 확률은 모두 같다. 이것으 '이유 불충분의 원리'라고 하며, 확률론의 기초 가운데 하나이다. 이 원리를 라플라스가 최초로 고안항였다. 

 

'불확실'한 현실에서는 특히 확률론이 필요

라플라스는  1814년에 출판한 <확률의 철학적 시론>에서 이렇게 말했다. 

 

'어떤 시점에서 자연을 움직이는 힘과 구성물의 상태 모두를 알고 있는 지서이 있다면,

그 지성에게는 불확실한 것이 아무것도 없고 과거와 미애를 모두 꿰뚫어볼 수 있을 것이다.'

 

이 지성을 '라플라스의 악마'라고 부르기도 한다. (라플라스 자신은 악마라는 말을 사용하지 않았다.)

현실의 인간 주위에는 불확실한 일들이 매우 많으며 과거와 미래 모두를 알아차리기는 어렵다. 그러므로 라플라스는 확률론이 더욱 필요하다고 말하고 싶었는지도 모른다.

 

라플라스는 이 책에서 6가지 원리를 제시했다. 거기에는 '이유 불출분의 원리', '덧셈 정리', '곱셈 정리' 등도 들어있다.

마지막 제6원리는 '관찰된 이에 여러가지 원인이 생각될 때, 각각의 확률을 구하는 원리'였다. 이것이 베이즈 정리이다. 

 

라플라스는 베이즈 정리를 확률론의 기초 원리로 자리 잡게 한 것이다. 최초의 발견자를 존중해 ' 베이즈 정리'라고 부르고 있지만, 라플라스야 말고 이 정리의 확립에 가장 크게 공한한 수학자이다. 

 

728x90
반응형
728x90
반응형

18세기의 목사 토머스 베이스는 확률에 대해 무엇을 생각했나?

영국 런던 남동쪽 턴브리지웰스 Tunbridge Wells 라는 마음에 토마스 베이즈(Thomas Bayes, 1702-1761)는 개신교 목사로 활동한 사람이다.  영국 에든버러 대학에서 논리학과 신학을 공부했다. 목사가 된 베이즈는 아이작 뉴턴(1642-1727)의 신봉자로 수학자로도 활동했다. 뉴턴이 발견한 미적분법(유율법)에는 엄밀성이 결여되어 있다는 비판이 일어날 때, 베이즈는 유율법을 옹호했다. 

 

베이즈 정리의 원형이 되는 개념은?

베이즈는 특히 확률 문제 에 흥미를 가졌고, 수학자로서 남긴 유일한 논문에 베이즈 정리의 원형이 되는 확률 개념이 적혀있다. 

"사물의 원인이 불명인 경우는 '하나가 아니라, 다수의 원인이 작용하고 있다.'고 가정하자. 그리고 다수의 원인에 대해 확률을 생각하고, 관찰된 결과를 사용해서 해결하면 된다." 

이 문장의 '원인에 대한 확률'에 주목한 그의 사고방식이 오늘 날 베이즈 통계의 기초가 되었다. 

 

베이즈 사후 친구가 논문을 세상에 알림

베이즈 사후 친구인 리처드 파라이스(Richard Price, 1723-1791)가 논문을 1763년에 출판하였다. 그리고 프랑스 수학자 피에르 시몽 라플라스(1749-1827)에 의해 베이즈 정리는 확률론의 기초로 자리 잡았다. 

 

 

728x90
반응형
728x90
반응형

어떤 가족의 자녀 2명이 있다. 그 가운데 적어도 1명은 아들이다. 이때 2명 모두 아들일 확률은?

미국 수학자 마틴 가드너(Martin Gardener, 1914~2010)가 1959년 Scientific American 저널의 칼럼에 실린 문제

직감적으로는 1/2로 생각되지만, 

1명이 아들이이라고 알려져 이으므로, 2명 모두 아들인지 아닌지는 다른 1명이 아들인지 딸인지로 정해진다. 아들인지 딸인지 각각의 확률은 1/2이다. 

하지만, 가드너의 답은 1/3 이었다. 

왜 직감과 다른 답이 나올까? 

반응형

네 가지 경우로 나누어 생각해 보자

'적어도 1명은 아들'이라는 조건이 없으면, '형-남동생', '오빠-여동생', '누나-남동생', '언니-여동생' 의 4가지 경우를 생각할 수 있다. 어느 경우도 확률은 같다. 

여기서, '적어도 1명은 아들'이라는 정보가 주어졌으므로, '언니-여동생'의 경우는 제외되고, 남는 것은 3가지 경우 뿐이다. 

이렇게 남은 3가지 경우 가운데 2명 모두 두 아들인 것은 '형-남동생'의 1가지 경우 밖에 없다. 따라서, 구하는 확률은 1/3이다. 

 

728x90
반응형
728x90
반응형

가설검정의 기본원리

가설검정(hypothesis testing) : 표본을 기초로 얻은 검정통계량의 관찰값을 이용하여 모집단분포 또는 모수에 대해 이미 설정된 가설에 대한 타당성을 판정하는 과정

표본에 근거하여 타당성을 조사한 결과 이미 설정한 가설이 거짓으로 판정되면 그 가설을 기각(reject)한다 하고,

설정한 가설이 타당성이 있거나 부정하지 못하면 그 가설을 채택(accept)한다고 한다.

 

거짓이 명확히 규명될 때까지 참인 것으로 인정되는 모수에 대한 가설, 반증적 방법으로 증명하기 위해 기각할 것을 바라면서 설정하는 가설을 귀무가설(null hypothesis)이라 하고 H0으로 나타낸다.

귀무가설과 대립되거나 이 가설을 부정하는 가설로서 강력한 증거로 입증하고자 하는 가설을 대립가설(alternative hypothesis)이라 하고 H1로 나타낸다.

 

검정통계량(testing statistic) : 두 가설의 진위여부를 판정하기 위해 표본을 이용하여 얻은 통계량

기각역(critical region): 귀무가설 H0 을 기각시키는 검정통계량의 관찰값이 포함되는 영역

채택역(acceptane region): 귀무가설을 기각시키지 못하는 검정통계량의 관찰값이 포함되는 영역

 

 

 

 

 

 

 

 

모평균의 검정

 

 

 

728x90
반응형
728x90
반응형

1. 가설검정의 기본원리 

 

표본을 기초로 얻은 검정통계량의 관찰값을 이용하여 모집단분포 또는 모수에 대해 이미 설정된 가설에 대한 타당성을 판정하는 과정을 가설검정(hypothesis testing)이라 한다.

표본에 근거하여 타당성을 조사한 결과 이미 설정한 가설이 거짓으로 판정되면 가설을 기각(reject)한다 하고, 설정한 가설이 타당성이 있거나 부정하지 못하면 가설을 채택(accept)한다고 한다.

 

거짓이 명확히 규명될 때까지 참인 것으로 인정되는 모수에 대한 가설, 반증적 방법으로 증명하기 위해 기각할 것을 바라면서 설정하는 가설을 귀무가설(null hypothesis)이라 하고 H0으로 나타낸다.

귀무가설과 대립되거나 이 가설을 부정하는 가설로서 강력한 증거로 입증하고자 하는 가설을 대립가설(alternative hypothesis)이라 하고 H1로 나타낸다.

 

두 가설의 진위여부를 판정하기 위해 표본을 이용하여 얻은 통계량을

검정통계량(testing statistic)이라 한다.

귀무가설 H0 을 기각시키는 검정통계량의 관찰값이 포함되는 영역을

기각역(critical region), 귀무가설을 기각시키지 못하는 검정통계량의 관찰값이 포함되는 영역을 채택역(acceptane region)이라 한다.

 

귀무가설의 진위 여부를 판정하기 위해 추출된 표본으로부터 얻은 정보를 기초로 두 가지 가설 중에서 어느 하나를 선택하므로 오류가 발생할 수 있다.

 

 

 

 

 

 

 

 

2. 모평균의 검정

 

 

 

 

3. 모비율의 검정

 

4. 모분산의 검정

 

 

5. 적합도 검정

 

 

 

 

6. 독립성 검정

 

 

 

 

728x90
반응형
728x90
반응형

1. 추정의 개념

통계 추론(statistical inference) : 표본으로부터 얻은 정보를 이용하여 과학적으로 미지의 모수를 추론하는 과정
추정(estimation) :  표본평균, 표본비율, 표본분산 등과 같은 표본으로부터 얻은 통계량을 이용하여 모수를 추론하는 과정

점추정 (point estimation) : 모수에 대한 추정량은 표본추출에 따라 가변적이므로 최적의 추정량을 설정하여 가장 보편타당한 추정값을 얻어야 하며, 이와 같은 최적의 추정값을 구하는 과정

구간추정(interval estimation) : 미리 정해진 어느 정도의 확신을 가지고 모수 q의 참값이 포함될 것으로 믿어지는 구간을 추정하는 방법

 

[Note]  바람직한 추정량의 성질

1. 불편성 unbiasedness

   모수의 추정량의 기대값이 모수가 되는 성질. 추정량의 기댓값이 모수의 참값과 같아지는 성질

2. 일치성 Consistency
   표본의 크기가 커짐에 따라 또는 충분히 크다면, 추정량이 확률적으로 모수에 가깝게 수렴하는 성질. 
3. 효율성 또는 유효성 Efficiency
   추정량이 불편추정량이고, 그 분산이 다른 추정량에 비해 상대적으로 작은 분산을 갖는 성질
4. 충분성 Sufficiency

    모수에 대하여 가능한 많은 표본정보를 내포하고 있는 추정량의 성질

 

 

 

 

2. 최대우도추정

 

 

 

3. 모평균의 구간추정

 

 

 

 

 

 

 

4. 모비율의 구간추정

 

 

 

5. 표본의 크기 결정

 

 

6. 모분산의 구간추정

 

 

 

728x90
반응형
728x90
반응형

표본분포 

모분산을 알고 있는 비현실적인 경우 

● 아래와 같은 확률분포를 갖는 모집단으로부터 크기가 36인 확률표본을 추출한다고 하자. 이 때, P(3.5 < X ≤ 4.5) 를 구하라. 

x 1 2 3 4 5 6
f(x) 0.3 0.1 0.1 0.1 0.3 0.1
x <- c(1, 2, 3, 4, 5, 6) 
f_x <- c(0.3, 0.1, 0.1, 0.1, 0.3, 0.1)
mean <- sum(x * f_x)  # 모평균
var <- sum(x^2 * f_x) - mean^2    # 모분산
mean; var
#모평균과 모분산을 이용하여, 표본평균과 표본분산 계산
S_mean <- mean
S_var <- round(var/36, 3)
S_mean; S_var
# z 값 계산
(z_low <- round((3.5 - S_mean)/sqrt(S_var), 3))
(z_high <- round((4.5 - S_mean)/sqrt(S_var), 3))
round(pnorm(z_high) - pnorm(z_low), 4)

●  모비율 0.6인 모집단으로부터 크기 36인 표본을 취했을 때 표본비율 p가 0.5와 0.7 사이일 확률은?

p <- 0.6; n <- 36
sd<- round(sqrt(p* (1-p) / n), 2)
sd
(z_low <- (0.5 - p) /sd)
(z_high <- (0.7 - p) /sd) 
round(pnorm(z_high) - pnorm(z_low), 4)

 

카아제곱분포

● Z ~ N(0,1) 일때, P(Z2 < 3.841)을 구하시오. 

# pnorm(분위수, 평균, 표준편차)를 이용하여 정규분포로 부터 P(-sqrt(3.841 < Z < sqrt(3.841)를 구함.
# 평균과 표준편차를 생략하면 표준정규분포로 부터 계산함
pnorm(sqrt(3.841)) - pnorm(-sqrt(3.841))
# 또는
# pchisq(분위수, 자유도)를 이용하여 카이제곱분포로 부터 P[x^2(1) < 3.841)을 구함
round(pchisq(3.841, 1),2 )

● 어떤 회사에서 생산되는 철근의 장력은 분산 σ2 = 100인 정규분포를 따른다. 11개의 강철빔들을 무작위로 추출할 때, 그 장력의 표본분사 S2이 205보다 클 확률은?

p <- 0.6; n <- 36
(sd<- round(sqrt(p* (1-p) / n), 2))
(z_low <- (0.5 - p) /sd)
(z_high <- (0.7 - p) /sd) 
round(pnorm(z_high) - pnorm(z_low), 4)

 

T 분포

모분산을 알지 못하는 현실적인 경우 

● 어느 학교의 학생들의 IQ는 평균 120인 정규분포를 따른다. 25명의 학생들을 무작위로 추출했을 때, IQ의 표준편차는 S=6이었다. (1) 표본평균 X가 117보다 크지 않을 확률을 구하여라. 

mean <-120; sd <- 6; n <- 25 
x <-117 
t <- (x- mean) / (sd/sqrt(n))
t
round(pt(t, n-1), 2)

 

728x90
반응형
728x90
반응형

 

 

 

728x90
반응형
728x90
반응형

1. 표본 분포

모분산이 알려진 경우 (비현실적, 이상적인 경우)

X1, X2 가 취할 수 있는 값은 각각 0, 1, 2, 3 이다. 표본평균 X의 확률분포를 구하기 위하여 X1, X2 의 결합분포를 생각하면, 위 표와 같이 나타낼 수 있다. 

한편,  X1, X2 가 취할 수 있는 값은 각각 0, 1, 2, 3 이므로, X의 관찰 가능한 값은 0, 0.5, 1, 1.5, 2, 2.5, 3 이므로, X1과 X2사이에는 아래와 같은 관계가 있다. 

 X=0    : (X1, X2 ) = (0, 0)

 X=0.5 : (X1, X2 ) = (0, 1), (1, 0)

 X=1.0 : (X1, X2 ) = (0, 2), (1, 1), (2, 0)

 X=1.5 : (X1, X2 ) = (0, 3), (1, 2), (2, 1), (3, 0)

 X=2.0 : (X1, X2 ) = (1, 3), (3, 1), (2, 2)

 X=2.5 : (X1, X2 ) = (2, 3), (3, 2) 

 X=3.0 : (X1, X2 ) = (3, 3)

따라서, X의 확률분포는 아래 표와 같다.

 

 

중심극한 정리와 표본평균의 표본분포 비교

(참고) 표본 비율을 특정할 수 없는 경우, 1/2 로 지정한다. 

 

 

 

2. 카이제곱분포

모평균을 추정하기 위해 표본평균을 사용

모분산을 추정하기 위해 표본분산을 사용

모평균 추론을 위해서 표본평균의 분포를 알아야

모분산 추론을 위해서 표본분산의 분포를 알아야

 

카이제곱분포

감마분포에서 α=n/2, β=2 인 특수한 경우를 자유도 n인 카이분포라고 한다.

모순산이 특정한 값을 갖는지 여부를 검정하는데 사용하는 분포

두 범주형 변수간의 연관성을 검정하는데 주로 사용

 

 

카이제곱분포 만들기

1. 표준정규분포에서

2. 변수 한 개(자유도 1) 를 랜덤하게 추출

3. 그 변수를 제곱해서 히스토그램으로 표현

이 과정을 반복하면, 아래 양의 히스토그램.

 

한번에 추출하는 변수가 2개 이상, 즉 자유도 2개 이상이면, 변수들을 각각 제곱해서 더함. 따라서, 더해주는 변수가 많아질 수록 정규분포에 접근(중심극한 정리)

카이제곱 분포 응용

일반적으로 오차(error)는 정규분포로 만들어 두기 때문에 오차 또는 편차를 분석할 때 유용.

샘플수가 무수히 많고 합을 이용해 오차를 정의하는 경우, 오차의 분포를 정규분포를 따름(중심극한 정리)

오차나 편차가 우연히 발생할 수 있다고 볼 수 있을 만한 수준인지 아닌지 판별할 수 있다.
그림 예. 회귀분석 시, 샘플링 데이터는 정규분포에서 랜덤하게 샘플링 되어 얻은 값이라고 가정

 

 

 

 

3. T 분포 

모분산이 알려지지 않은 경우 (현실적인 경우)

 

 

 

 

정리

728x90
반응형
728x90
반응형

베르누이 분포와 이항분포

● 앞면이 나올 가능성이 1/3인 왜곡된 동전을 반복해서 3번 던질 때 확률변수 X를 앞면이 나온 횟수라 하자. 이 때 확률변수 X의 확률 분포를 구하라. 

#MASS 패키지 사용
#dbinom(성공횟수, 시행횟수, 성공확률)을 이용해 이항분포로부터 P(X = x)를 구한다. 
library(MASS)
n =3; p = 1/3
xx <- dbinom(0:3, n, p)  
#names()를 이용하여 확률분포표의 형태로 출력
names(xx) <- c("0", "1", "2", "3")
xx
#as.fractions()를 이용하여 소수를 분수로 변환
frac_xx <- as.fractions(xx)
names(frac_xx) <- c("0", "1", "2", "3")
frac_xx

● 한 개의 공정한 주사위를 4번 던질 때 1의 눈이 나타날 확률분포를 구하여라. 

n =4; p = 1/6
xx <- dbinom(0:4, n, p)
names(xx)=c("0", "1", "2", "3", "4")
round(xx, 3)

 전 1개를 5회 던질 때, 앞면이 나오는 횟수를 확률변수 X라고 할 때, X의 평균과 분산, P(X≤2)를 구하시오. 

#distrEx 패키지 내 Binom(표본크기, 성공확률)로 이항분포를 정의
#E(X), var(X)로 평균과 분산을 구함. 
library(distrEx)
x <- c(0, 1, 2, 3, 4, 5)
xx <- Binom(5, 0.5)
as.fractions(E(xx))
as.fractions(var(xx))

또는

x <- c(0, 1, 2, 3, 4, 5)
xx <- dbinom(0:5, 5, 0.5)
xx
as.fractions(mean_xx <- sum(x * xx))  
as.fractions(var_xx <- sum((x - mean_xx)^2 * xx))
as.fractions(pbinom(2, 5, 0.5))

 

포아송 분포

어떤 복권 판매점에서는 매일 10시와 11시 사이에 고객이 평균 60명씩 몰려든다고 하자. 그렇다면 10시와 11시 사이에 1분당 2명이 도착할 확률은?

# 1분당 평균 도착할 확률은 lambda
time = 60; people = 60
lambda = people/time
#dpois(발생횟수, 평균)을 이용, 포아송 분포로 부터 P(X=2)를 구함. 
dpois(2,lambda)

 어떤 공장에서 생산된 물건의 불량율이 0.0001이다. 그 공장의 생산라인에서 50,000개를 임의로 추출하여 2개 이하의 불량품이 나올 확률은? 

n = 50000; p = 0.0001
lambda = n * p 
# ppois(분위수, 평균발생횟수)를 이용하여 포아송 분포로 부터 P(X<=2)를 구함
ppois(2, lambda)
# 또는 
# pbinom(분위수, 표본 크기, 성공 확률)을 이용하여 이항분포로부터 P(X<=2)를 구함. 
pbinom(2, n, p)

 

정규분포 

통계학과 학생의 영어성적은 N(75, 9)인 정규분포를 따른다고 한다. 어느 한 학생의 영어성적이 80점 이상일 확률을 구하라. 

x <- 80
mean <- 75
sd <-3
z <- (x-mean)/sd
round(z,2)
#pnorm(분위수)를 이용 정규분포로 부터 P(X >= 80)을 구하기 위해서, 1-P(X <= 80)을 이용
round(1-pnorm(z),4)
728x90
반응형
728x90
반응형

포아송 분포

어느 제철공장에서 일 년 동안 발생하는 인명사고 건수의 평균이 3건이라고 할 때, 일 년 동안 한 건 이하의 인명사고가 일어날 (1) 확률을 구하고, (2) 기대값과 분산을 구하라.

풀이: 구하고자 하는 확률은 한 건 이하의 인명 사고 이므로, 인명사고 건수를 확률변수 X 로 두면, 구하고자 하는 확률은 P(X≤1)이다.  문제에서, 확률 변수 X는 인명사고 건수의 평균 l=3 인 포아송 분포를 따른다고 했으므로,

 

(1) 확률         P(X≤1) = P(X=0) + P(X=1) = exp(-3) 30 / 0! + exp(-3) 31 / 1!   = 0.04979 + 0.14936 = 0.19915

 

(2) 기대값     람다=3 포아송 분포를 따르므로 X~P(3)    따라서, E(X) = 3; Var(X) = 3      

어느 영한사전은 한 페이지에 오타가 평균적으로 2개있다. 이 사전에서 어느 한 페이지를 보았을 때 오타가 3개 이상 있을 (1) 확률 (2) 기대값과 분산은?

풀이:

확률변수 X는 오타의 평균이므로 X l =2포아송 분포를 따르므로 X~(2)

P(X≥3) = 1 – P(X<3)  = 1 – {P(x=0) + P(x=1) + P(x=2)}  = 1 –  {exp(-2) 2^0 / 0!  +  (exp(-2) 2^1 / 1!  + (exp(-2) 2^2 / 2! }

                  = 1 – (0.1353 + 0.2707 +0.2707)   = 0.3233     따라서, E(X) = 람다 =2; Var(X) = 2

 

정규 분포

● 어떤 전구는 평균 수명이 790시간이고, 표준편차가 40시간인 정규분포를 따른다. 16개의 전구를 추출할 경우 평균수명이 775시간 보다 짧을 확률을 구하시오 

답: u= 790, sigma=40,  n= 16   P(X<= 775) = 1-P(Z<1.5) = 1-0.9332 = 0.0668

 

● 앞면이 나올 확률이 0.5인 동전을 100번 던졌을 경우, 앞면이 50번 이상 나올 확률은? 

풀이:  이항분포의 정규근사 조건 np>5이고 n(1-p)>5를 만족하므로 E(X) = np =50, Var(X) =npq = 25

따라서 P(X>50) = P(Z > (50-50)/5 = 0) = 1-P(Z<0) =   0.5

 

 

 

728x90
반응형
728x90
반응형

이산형 확률분포들의 개념

균일분포(이산형)

확률변수 X는 x1부터 xn까지 균일한 크기인 1/N의 확률을 갖는 분포

베르누이 시행

동등한 실험조건하에서 실험의 결과가 단지 두 가지의 가능한 결과(성공,실패)만 갖는 분포

이항분포*

성공의 확률이 p인 베르누이 시행을 독립적으로 n번 반복 시행했을 때 성공의 횟수에 대한 분포

포아송 분포*

단위시간(면적, 공간) 내에서 발생하는 어떤 사건의 횟수에 대한 분포

기하분포*

성공의 확률이 p인 베르누이 시행을 처음으로 성공할 때까지의 시행횟수에 대한 분포

음이항부포

성공의 확률이 p인 베르누이 시행을 독립적으로 반복시행할 때 k번 성공할 때 까지의 시행횟수에 대한 분포

초기하분포

크기  N의 유한 모집단 중 크기 n의 확률표본을 뽑을 경우, N개 중 k개는 성공으로 나머지 (N-k)개는 실패로 분류하여 비복원으로 뽑을 때, 성공의 횟수에 대한 분포

 

연속형 확률분포들의 개념

균일분포(연속형)

구간 (a,b)에서 값들이 나타날 가능성이 균일한 분포

정규분포*

평균은 곡선의 중심위치를 결정하고, 표준편차는 그 곡선의 퍼진 정도를 나타내는 종모양의 분포

지수분포*

어떤 사건이 포아송 분포에 의해서 발생될 때 지정된 시점으로부터 이 사건이 일어날 때 까지 걸린 시간을 측정한 분포

감마분포*

지수분포의 개념을 확장하여 a번의 사건이 발생할 때까지의 대기시간 분포

카이제곱분포

모분산이 특정한 값을 갖는지 여부를 검정하거나 두 범주형 변수간의 연관성을 검정하는데 사용되는 분포

t분포*

소표본에서 정규분포를 따르는 집단의 평균에 대한 가설검정 또는 두 집단의 평균 차이검정에 사용되는 분포

F분포

집단간 분산비 검정에 주로 사용되는 분포

 

728x90
반응형
728x90
반응형

대류권은 연직적으로 자유대기와 대기경계층으로 크게 나눌 수 있다. 자유대기는 수평적 대기 흐름(이류)이 대기경계층에서는 연직(수직)적 대기 흐름(난류)가 지배적이다. 대기 경계층에서의 난류는 지표면와 맞닿은 대기 층 사이의 온도와 바람의 차이로 발생한다. 이 난류는 소용돌이로서 난류 에디라 부르며 지표와 대기 사이의 열, 운동량, 물질(수증기, 대기오염물) 을 교환한다. 

 

1. Reynolds  실험

난류에 대한 이론과 실험에서 큰 업적을 남긴 사람은 레이놀즈(Reynolds, O., 1843-1912)이다.
아래 그림과 같이 수조속에 유리관을 눕혀 놓고, 그 속에 물을 통화시킨다. 물이 흘러들어가는 관 안의 유체 흐름상태를 살펴보기 위하여, 관입구 근처에 착색한 액을 주입시킨다. 

실험에서 흐름의 2가지 상태를 발견하였는데,  그림에서와 같이 유속이 작을 때는 색소선을 관을 따라 하류까지 깨끗하게 흘러가지만 (a), 유속이 어떤 값 이상이 되면 색소선은 급격히 난류화되어 관 속에서 가득히 퍼지면서 희석된다 (b). 전자를 층류, 후자를 난류라고 한다. 

 

이 실험으로 부터 Reynolds 는 층류에서 난류로 변하는 것은 Reynolds 수(Re)라고 알려진 무차원 파라미터가 ~2,000 을 넘을 경우에 발생한다는 것을 발견했다.
 

2. Reynolds 수

아래 대기 역학 방정식을 고려해 보자. 

예를 들어 단면적의 지름이 L인 원통을 통과하는 유체의 특성길이는 L이다. 유체 운동의 대표 길이 (characteristic scale)를 L, 유체 흐름의 속도를 u라고 두고 각 변수를 아래와 같이 무차원화 시키면, 관성항과 점성항의 비는 아래와 같고, 이를Reynolds 수라고 한다.  즉,  레이놀즈 수는 점성력에 대한 관성력의 비로 정의된다. 

여기서, v는 운동학적 점성계수 10-5 m2/s 이다.
점성력이 크다는 것은 입자 사이에서 서로 붙들고 있는 힘 (응력)이 크다는 의미이다. 따라서, 점성력이 크면 층류가 유지되려고 하고 반대로 점성력이 작아지면 입자 사이 응력이 작아져서 흐름이 나란히 진행되지 않고 서로 뒤엉키는 상태인 난류가 된다. 

 

Re<1: 원주에 대칭적인 정상상태 (stationary state) , 
Re<<1 이면 비선형항인 관성항이 무시되어 해석해 구할 수 있다. 
Re=1~10: 여전히 정상상태의 흐름이지만, 원주뒤쪽에 흐름이 분리되어 한 쌍의 와동을 발생시킨다. 이 와동쌍은 Re와 함께 점점 커진다. 
Re=10~10^2: 흐름에 따라 두개의 와동이 ㅓ로 나란히 배치되는 Karman vortex street (와열) 가 형성된다. 흐름은 비정상적이지만, 주기적. 
Re=10^2~10^5: Re가 증가함에 따라 와열은 무너지고, 뒤따르는 wake 는 비주기적인 난류로 바뀐다. 
Re>10^5: 완전한 난류 상태로 바뀐다. 원주표면 경계층까지 난류로 바뀌면서 경계층이 원주로 부터 분리되는 점이 뒤로 밀려, 뒤따라는 난류 흐름의 폭이 좁아진다.

3. 레이놀즈 수의 의미

 
(1) 유체흐르의 시간규모 (L/U)와 운동량 확산의 시간규모 (L2/v) 의 비.
(2) 난류에 의한 확산과 분자에 의한 확산의 비
 
기하학적으로 닮은꼴의 두 흐름이 있을 때,  Re 가 같다면 그 크기에 상관없이 같은 형태의 유체운동을 가지게 된다. , 유체 흐름의 특성은 Re 수의 크기에 의해 결정된다.

임계 레이놀즈 수:

Re 가 약 2000 이상 되는 유체 흐름을 난류라고 하고, 층류에서 난류로 전이되는 순간의 이 레이놀즈 수를 임계 레이놀즈 수라고 한다. 

Reynolds 수가 무차원식의 유일한 매개변수라는 것의 의미:

4. 대기 경계층 내 레이놀즈 수

대기 경계층에서는 속도 규모가 10m/s, 특성 길이(경계층 높이)가 1km이고, 운동학적 점성계수 가 10-5 m2/s이므로 레이놀즈 수는 109 값을 갖는다. 이 값은 임계 레이놀즈 수 보다 훨씬 큰 값이므로 대기경계층에서의 흐름은 난류가 유지 된다. 

 

"난류는 불규칙적 흐름의 상태이며, 그 흐름 중에는 여러가지 양이 시공간적으로 불규칙적 변동을 하고 있다. 따라서, 인간은 통계적인 평균값만 인식가능하다." (Hinze, J.O., 1975: Turbulence). 

 

 

 
728x90
반응형
728x90
반응형

● 대류권을 BL와 FL로 나누고 다시 행성 경계층의 구조를 도식화하고 설명하시오. 

 

 

 행성 경계층의 일변화를 도식화하고, 혼합층, 잔류층, 야간 안정 경계층의 용어를 사용하여 설명하시오. 

 

 

 경계층 내 가온위, 습도, 대기오염물의 농도, 풍속의 연직구조를 주간과 야간으로 나누어 설명하시오. 

 

 

 

 

 기상현상의 시간 및 공간 규모 macro, meso-α, meso-β, meso-γ, micro-α, micro-β 로 나누어 표로 도식화하고, 각 규모를 대표하는 기상현상을 쓰시오. 

 

 

 

 플럭스를 현열플럭스와 잠열플럭스로 나눌 때 보웬비 방법이 사용되었다. 이 방법을 간단히 설명하고 그 단점을 서술하시오. 

 

 

 토양 속에서 온도의 시간적 변화를 나타내는 식으로 유도하라

 

 

 토양의 깊이에 따라 최고 온도가 나타나는 시각은 어떻게 변화하고, 온도 변화폭은 어떻게 변하는가? 

 

 

 플럭스 리차드슨 수를 정의하고 이로부터 경도 리차드슨 수를 유도할 때, 무슨 이론이 적용되는지 쓰시오. 

k-theory

 

 

 대기 시스템의 안정도는 정적 안정도와 동적 안정도로 나뉜다. 각각 어떤 과정을 거쳐 시스템의 불안정을 안정화 시키는가? 

정적안정도는 대류가 더 맣은 부력 유체를 상승시켜 안정화되고, 동적안정도는 난류가 wind shear를 감소시켜 안정화된다. 

 

 이상적인 지표를 생각하자. 차고 습한 지면 위를 온난 건조한 공기가 이동하는 경우, 낮 시간 지표면 부근  에너지 수지 방정식 각 항의 방향(상/하)를 간단히 그리고 설명하시오. 

 

 

 낮 시간 지면의 하향단파복사를 태양상수, 대기 투과율, 태양 고도각을 이용하여 수식으로 표현(모수화)  하시오. 

 

 

 

 

 굴뚝에서 나오는 연기는 혼합층 내에서 어떤 모양을 나타내는가? 수업시간에 다룬 6가지 중 가장 가까운 형태에 대해서 서술하시오.

 

 

 자유 대류(free convection)와 강제 대류(forced convection)을 구분하고 설명하시오. 

자유대류: 바람 없고 맑을 때 부력에 의해서 ; 강제 대류: 바람이 강하고 구름이 많을 때

 

 지표층과 혼합층의 특성을 각각 서술하시오. 

 

 

 포화되어 물방울이 형성되어 있는 공기 덩어리에 대하여 가온위를 계산하는 식을 온위, 수증기 포화혼합비, 물방울 혼합비를 사용하여 가온위를 나타내어라. 이로부터 가온위는 수증기량이 많을 수록 (증가, 감소) 하고 응결된 물방울이 많을 수록 (증가, 감소)함을 알 수 있다(괄호 내 알맞은 단어를 선택하시오).

증가, 감소

 

 대기 난류는 열적 난류와 기계적 난류로 분류할 수 있다. 이 난류들 중 어느 것이 더 지배적인가는 리차드슨 수를 근거로 추정한다.  리차드슨 수의 구간에 따라서 정적 안정도, 동적 안정도  그리고 흐름 상태에 대하여 각각의 특징을 설명하시오.

 

 

 

난류소송과 분자확산의 에너지 및 물질 교환과정의 차이점을 설명하시오. 또한 지표층과 그 상부의 경계층 사이에서 물과 에너지 교환에 나타나는 난류수송의 중요성에 대해서 설명하시오.

 

 

 

층류와 난류를 결정하는 두 가지 힘을 기술하고, 두 힘의 상대적인 역할을 정량적으로 나타내는 무차원 수를 정의하고 설명하시오. 

 

 

보웬비를 정의하고, 고온의 해양과 저온의 설빙면에서의 보웬비 차이를 유발하는 이유를 설명하시오. 

 

 

바람이 거의 없는 맑은 날 야간에 나지에서의 지표면으로 부터 방출되는 장파복사량은 300 W m-2 이고 대기로 부터 받는 장파복사량은 250 W m-2 이다. 지표면에서의 에너지 수지 방정식에 적절한 가정을 사용하고 토양열 플럭스를 추정하시오.

 

728x90
반응형
728x90
반응형
728x90
반응형
728x90
반응형
728x90
반응형
728x90
반응형

● 확률변수 X와 Y의 결합분포가 아래와 같을 때, 아래 물음에 답하시오.

  Y=0 Y=2
X=0 0.3 0.2
X=1 0.2 0.3

(1) X와 Y의 공분산은?

답: 

E(X)=0.5;      E(X^2)=0.5 따라서 V(X)=0.25

E(Y)=1;      E(Y^2)=1 따라서 V(Y)=1

Cov(X, Y) = E(XY) - E(X)E(Y) = 0.6 - 0.5 x 1 = 0.1

 

(2) X와 Y의 상관계수는? 

답:

Corr = 0.1 / (0.5 x 1) = 0.2

 

 

● 하나의 동전을 세번 던졌을 때 나오는 뒷면의 수를 X, 처음  두 번의 시행에서 나오는 앞면의 수를 Y라 하였을 때, 아래 물음에 답하시오.

(1) 두 확률변수 X, Y의 공분산은?

답: 

Cov(X, Y) = E(XY) - μx μy = 1 x 1/4 + 2 x 1/4 + 2 x 1/8 - 3/2 x 1 = -0.5

(2) 두 확률변수 X, Y의 상관계수는? 

답:

V(X) = npq = 3 x 1/2 x 1/2 = 3/4

V(Y) = npq = 2 x 1/2 x 1/2 = 1/2

따라서, Cov(X,Y)/sqrt(V(X) V(Y)) = -0.5/sqrt(3/4 x 1/2) = -sqrt(2/3)

 

 

 

 

728x90
반응형

+ Recent posts