하루에 10분씩 공부하는 AP Statistics - #56 비율차이 검정(Hypothesis Test for Difference Between Proportions)
여기에서는 비율 차이에 대한 가설검정을 하는 방법을 알아보자. 검정 과정은 양비율 z 검정(two-proportion z-test)이며, 가설검정을 하기 위해서는 먼저 다음 조건이 만족되어야 한다.
- 각 모집단에 대한 표집방법이 단순임의표집(simple random sampling)인 경우
- 표본이 서로 독립인 경우
- 표본이 적어도 10번의 성공과 10번의 실패를 포함하는 경우
(일부 책에서는 5번의 성공과 5번의 실패면 충분하다고 보기도 함) - 각 모집단 크기가 표본 크기보다 적어도 10배 이상인 경우
가설 검정은 크게 (1)가설 수립, (2)분석계획 수립, (3)표본자료의 분석, (4) 결과해석 의 4단계로 이루어진다.
▶ 가설 수립(State the Hypotheses)
검정하고자 가설은 귀무가설과 대립가설의 형태로 명시한다. 아래 표는 가설의 3가지 경우를 나타낸 것이다. 각각은 두 모집단 비율 P1 과 P2 의 차이 d에 대한 가설을 나타낸다. (아래 표에서 ≠ 은 "같지 않다"를 의미한다.)
Set | Null hypothesis | Alternative hypothesis | Number of tails |
1 | P1 - P2 = 0 | P1 - P2 ≠ 0 | 2 |
2 | P1 - P2 > 0 | P1 - P2 < 0 | 1 |
3 | P1 - P2 < 0 | P1 - P2 > 0 | 1 |
첫번째 가설(Set 1)은 표집분포의 양쪽의 극단값이 귀무가설을 기각시키므로 양측꼬리검정의 예이다. 나머지 두 가설(Set 2, Set 3)은 표집분포의 한쪽 극단값만이 귀무가설을 기각시키므로 단측꼬리검정에 해당한다.
귀무가설이 '비율 차이가 없다. (즉 d = 0)' 인 경우에 양측꼬리검정을 위한 귀무가설과 대립가설은 다음과 같이 나타낸다.
H0: P1 = P2
Ha: P1 ≠ P2
▶ 분석계획 수립(Formulate an Analysis Plan)
분석계획은 귀무가설을 채택하거나 기각하기 위해 표본자료를 어떻게 이용할지 명시해야 한다.
이 과정은 다음 요소를 반드시 포함해야 한다.
- 유의수준(Significance level)
보통 유의수준은 0.01, 0.05, 0.10 을 많이 사용한다.
하지만 0과 1 사이의 어떤 값이라도 사용할 수 있다.
- 검정 방법(Test method)
양비율 z 검정(two-proportion z-test)을 이용해 가정한 모집단 비율 차이와 관측된 표본 비율 차이 간에 유의한 차이가 있는지 여부를 결정한다.
▶ 표본자료의 분석(Analyze Sample Data)
표본자료를 이용해 검정 통계량과 연관된 P 값을 구한다.
- 합동 표본 비율(Pooled sample proportion)
귀무가설이 P1=P2 이기 때문에 합동 표본 비율(p)을 표집분포의 표준오차를 구하는데 이용할 수 있다.p = (p1 * n1 + p2 * n2) / (n1 + n2)
여기서 p1 은 모집단 1의 표본 비율, p2 는 모집단 2의 표본 비율, n1 표본 1의 크기, n2 는 표본 2의 크기이다.
- 표준오차(Standard error)
비율 차이의 표집분포의 표준오차(SE)를 구한다.SE = sqrt{ p * ( 1 - p ) * [ (1/n1) + (1/n2) ] }
여기서 p 는 합동 표본 비율, n1 표본 1의 크기, n2 는 표본 2의 크기이다.
- 검정 통계량(Test statistic)
검정 통계량은 다음 식으로 정의되는 z 점수(z-score) 이다.z = (p1 - p2) / SE
여기서 p1 은 모집단 1의 표본 비율, p2 는 모집단 2의 표본 비율, SE는 표집분포의 표준오차이다.
- P 값(P-value)
P 값은 관측된 표본 통계량이 검정 통계량만큼 극단적으로 치우칠 경우의 확률이다. 검정 통계량이 z 점수이므로 정규 누적확률분포표나 계산기를 이용해 z 점수를 구한다.
여기서 언급한 분석 방법은 양비율 z 검정(two-proportion z-test)이다.
▶ 결과 해석(Interpret Results)
주어진 귀무가설에 해당하는 표본이 아닐 것 같다면 귀무가설을 기각한다. P 값(P-value)과 유의수준(significance leve)을 비교해 P 값이 유의수준보다 작다면 귀무가설을 기각한다.
확인하고 넘어가기
여기서는 두 개의 예제를 통해 어떻게 비율에 대한 가설검정을 하는지 살펴보자. 첫번째는 양측꼬리검정(two-tailed test)이고 두번째는 단측꼬리검정(one-tailed test) 문제이다.
Problem 1: 양측꼬리검정(Two-Tailed Test)
Suppose the Acme Drug Company develops a new drug, designed to prevent colds. The company states that the drug is equally effective for men and women. To test this claim, they choose a a simple random sample of 100 women and 200 men from a population of 100,000 volunteers.
At the end of the study, 38% of the women caught a cold; and 51% of the men caught a cold. Based on these findings, can we reject the company's claim that the drug is equally effective for men and women? Use a 0.05 level of significance.
Problem 2: 단측꼬리검정(One-Tailed Test)
Suppose the previous example is stated a little bit differently. Suppose the Acme Drug Company develops a new drug, designed to prevent colds. The company states that the drug is more effective for women than for men. To test this claim, they choose a a simple random sample of 100 women and 200 men from a population of 100,000 volunteers.
At the end of the study, 38% of the women caught a cold; and 51% of the men caught a cold. Based on these findings, can we conclude that the drug is more effective for women than for men? Use a 0.01 level of significance.