본문 바로가기

AP Statistics/하루 10분 AP Stat.

하루에 10분씩 공부하는 AP Statistics - #56 비율차이 검정(Hypothesis Test for Difference Between Proportions)

반응형

하루에 10분씩 공부하는 AP Statistics - #56 비율차이 검정(Hypothesis Test for Difference Between Proportions)

여기에서는 비율 차이에 대한 가설검정을 하는 방법을 알아보자. 검정 과정은 양비율 z 검정(two-proportion z-test)이며, 가설검정을 하기 위해서는 먼저 다음 조건이 만족되어야 한다.
  • 각 모집단에 대한 표집방법이 단순임의표집(simple random sampling)인 경우
  • 표본이 서로 독립인 경우
  • 표본이 적어도 10번의 성공과 10번의 실패를 포함하는 경우
    (일부 책에서는 5번의 성공과 5번의 실패면 충분하다고 보기도 함)
  • 각 모집단 크기가 표본 크기보다 적어도 10배 이상인 경우

가설 검정은 크게 (1)가설 수립, (2)분석계획 수립, (3)표본자료의 분석, (4) 결과해석 의 4단계로 이루어진다.



▶ 가설 수립(State the Hypotheses)

검정하고자 가설은 귀무가설과 대립가설의 형태로 명시한다. 아래 표는 가설의 3가지 경우를 나타낸 것이다. 각각은 두 모집단 비율 P1 과 P2 의 차이 d에 대한 가설을 나타낸다. (아래 표에서 ≠ 은 "같지 않다"를 의미한다.)

Set Null hypothesis Alternative hypothesis Number of tails
1 P1 - P2 = 0 P1 - P2 ≠ 0 2
2 P1 - P2 > 0 P1 - P2 < 0 1
3 P1 - P2 < 0 P1 - P2 > 0 1

첫번째 가설(Set 1)은 표집분포의 양쪽의 극단값이 귀무가설을 기각시키므로 양측꼬리검정의 예이다. 나머지 두 가설(Set 2, Set 3)은 표집분포의 한쪽 극단값만이 귀무가설을 기각시키므로 단측꼬리검정에 해당한다.

귀무가설이 '비율 차이가 없다. (즉 d = 0)' 인 경우에 양측꼬리검정을 위한 귀무가설과 대립가설은 다음과 같이 나타낸다.

H0: P1 = P2
Ha: P1 ≠ P2





▶ 분석계획 수립(Formulate an Analysis Plan)

분석계획은 귀무가설을 채택하거나 기각하기 위해 표본자료를 어떻게 이용할지 명시해야 한다.
이 과정은 다음 요소를 반드시 포함해야 한다.

  • 유의수준(Significance level)
    보통 유의수준은 0.01, 0.05, 0.10 을 많이 사용한다.
    하지만 0과 1 사이의 어떤 값이라도 사용할 수 있다.

  • 검정 방법(Test method)
    양비율 z 검정(two-proportion z-test)을 이용해 가정한 모집단 비율 차이와 관측된 표본 비율 차이 간에 유의한 차이가 있는지 여부를 결정한다.



▶ 표본자료의 분석(Analyze Sample Data)

표본자료를 이용해 검정 통계량과 연관된 P 값을 구한다.

  • 합동 표본 비율(Pooled sample proportion)
    귀무가설이 P1=P2 이기 때문에 합동 표본 비율(p)을 표집분포의 표준오차를 구하는데 이용할 수 있다.

    p = (p1 * n1 + p2 * n2) / (n1 + n2)

    여기서 p1 은 모집단 1의 표본 비율, p2 는 모집단 2의 표본 비율, n1 표본 1의 크기, n2 는 표본 2의 크기이다.

  • 표준오차(Standard error)
    비율 차이의 표집분포의 표준오차(SE)를 구한다.

    SE = sqrt{ p * ( 1 - p ) * [ (1/n1) + (1/n2) ] }

    여기서 p 는 합동 표본 비율, n1 표본 1의 크기, n2 는 표본 2의 크기이다.

  • 검정 통계량(Test statistic)
    검정 통계량은 다음 식으로 정의되는 z 점수(z-score) 이다. 

    z = (p1 - p2) / SE

    여기서 p1 은 모집단 1의 표본 비율, p2 는 모집단 2의 표본 비율, SE는 표집분포의 표준오차이다.

  • P 값(P-value)
    P 값은 관측된 표본 통계량이 검정 통계량만큼 극단적으로 치우칠 경우의 확률이다. 검정 통계량이 z 점수이므로 정규 누적확률분포표나 계산기를 이용해 z 점수를 구한다.

여기서 언급한 분석 방법은 양비율 z 검정(two-proportion z-test)이다.




▶ 결과 해석(Interpret Results)

주어진 귀무가설에 해당하는 표본이 아닐 것 같다면 귀무가설을 기각한다. P 값(P-value)과 유의수준(significance leve)을 비교해 P 값이 유의수준보다 작다면 귀무가설을 기각한다.




확인하고 넘어가기

여기서는 두 개의 예제를 통해 어떻게 비율에 대한 가설검정을 하는지 살펴보자. 첫번째는 양측꼬리검정(two-tailed test)이고 두번째는 단측꼬리검정(one-tailed test) 문제이다.


Problem 1: 양측꼬리검정(Two-Tailed Test)

Suppose the Acme Drug Company develops a new drug, designed to prevent colds. The company states that the drug is equally effective for men and women. To test this claim, they choose a a simple random sample of 100 women and 200 men from a population of 100,000 volunteers.

At the end of the study, 38% of the women caught a cold; and 51% of the men caught a cold. Based on these findings, can we reject the company's claim that the drug is equally effective for men and women? Use a 0.05 level of significance.


Problem 2: 단측꼬리검정(One-Tailed Test)

Suppose the previous example is stated a little bit differently. Suppose the Acme Drug Company develops a new drug, designed to prevent colds. The company states that the drug is more effective for women than for men. To test this claim, they choose a a simple random sample of 100 women and 200 men from a population of 100,000 volunteers.

At the end of the study, 38% of the women caught a cold; and 51% of the men caught a cold. Based on these findings, can we conclude that the drug is more effective for women than for men? Use a 0.01 level of significance.





반응형