하루에 10분씩 공부하는 AP Statistics - #56 비율차이 검정(Hypothesis Test for Difference Between Proportions)

하루에 10분씩 공부하는 AP Statistics - #56 비율차이 검정(Hypothesis Test for Difference Between Proportions)

여기에서는 비율 차이에 대한 가설검정을 하는 방법을 알아보자. 검정 과정은 양비율 z 검정(two-proportion z-test)이며, 가설검정을 하기 위해서는 먼저 다음 조건이 만족되어야 한다.

각 모집단에 대한 표집방법이 단순임의표집(simple random sampling)인 경우
표본이 서로 독립인 경우
표본이 적어도 10번의 성공과 10번의 실패를 포함하는 경우
(일부 책에서는 5번의 성공과 5번의 실패면 충분하다고 보기도 함)
각 모집단 크기가 표본 크기보다 적어도 10배 이상인 경우

가설 검정은 크게 (1)가설 수립, (2)분석계획 수립, (3)표본자료의 분석, (4) 결과해석 의 4단계로 이루어진다.

▶ 가설 수립(State the Hypotheses)

검정하고자 가설은 귀무가설과 대립가설의 형태로 명시한다. 아래 표는 가설의 3가지 경우를 나타낸 것이다. 각각은 두 모집단 비율 P₁ 과 P₂ 의 차이 d에 대한 가설을 나타낸다. (아래 표에서 ≠ 은 "같지 않다"를 의미한다.)

Set	Null hypothesis	Alternative hypothesis	Number of tails
1	P₁ - P₂ = 0	P₁ - P₂ ≠ 0	2
2	P₁ - P₂ > 0	P₁ - P₂ < 0	1
3	P₁ - P₂ < 0	P₁ - P₂ > 0	1

첫번째 가설(Set 1)은 표집분포의 양쪽의 극단값이 귀무가설을 기각시키므로 양측꼬리검정의 예이다. 나머지 두 가설(Set 2, Set 3)은 표집분포의 한쪽 극단값만이 귀무가설을 기각시키므로 단측꼬리검정에 해당한다.

귀무가설이 '비율 차이가 없다. (즉 d = 0)' 인 경우에 양측꼬리검정을 위한 귀무가설과 대립가설은 다음과 같이 나타낸다.

H₀: P₁ = P₂
H_a: P₁ ≠ P₂

▶ 분석계획 수립(Formulate an Analysis Plan)

분석계획은 귀무가설을 채택하거나 기각하기 위해 표본자료를 어떻게 이용할지 명시해야 한다.
이 과정은 다음 요소를 반드시 포함해야 한다.

유의수준(Significance level)
보통 유의수준은 0.01, 0.05, 0.10 을 많이 사용한다.
하지만 0과 1 사이의 어떤 값이라도 사용할 수 있다.
검정 방법(Test method)
양비율 z 검정(two-proportion z-test)을 이용해 가정한 모집단 비율 차이와 관측된 표본 비율 차이 간에 유의한 차이가 있는지 여부를 결정한다.

▶ 표본자료의 분석(Analyze Sample Data)

표본자료를 이용해 검정 통계량과 연관된 P 값을 구한다.

합동 표본 비율(Pooled sample proportion)
귀무가설이 P₁=P₂이기 때문에 합동 표본 비율(p)을 표집분포의 표준오차를 구하는데 이용할 수 있다.
p = (p₁ * n₁ + p₂ * n₂) / (n₁ + n₂)
여기서 p₁ 은 모집단 1의 표본 비율, p₂ 는 모집단 2의 표본 비율, n₁ 표본 1의 크기, n₂ 는 표본 2의 크기이다.
표준오차(Standard error)
비율 차이의 표집분포의 표준오차(SE)를 구한다.
SE = sqrt{ p * ( 1 - p ) * [ (1/n₁) + (1/n₂) ] }
여기서 p 는 합동 표본 비율, n₁ 표본 1의 크기, n₂ 는 표본 2의 크기이다.
검정 통계량(Test statistic)
검정 통계량은 다음 식으로 정의되는 z 점수(z-score) 이다.
z = (p₁ - p₂) / SE
여기서 p₁ 은 모집단 1의 표본 비율, p₂ 는 모집단 2의 표본 비율, SE는 표집분포의 표준오차이다.
P 값(P-value)
P 값은 관측된 표본 통계량이 검정 통계량만큼 극단적으로 치우칠 경우의 확률이다. 검정 통계량이 z 점수이므로 정규 누적확률분포표나 계산기를 이용해 z 점수를 구한다.

여기서 언급한 분석 방법은 양비율 z 검정(two-proportion z-test)이다.

▶ 결과 해석(Interpret Results)

주어진 귀무가설에 해당하는 표본이 아닐 것 같다면 귀무가설을 기각한다. P 값(P-value)과 유의수준(significance leve)을 비교해 P 값이 유의수준보다 작다면 귀무가설을 기각한다.

확인하고 넘어가기

여기서는 두 개의 예제를 통해 어떻게 비율에 대한 가설검정을 하는지 살펴보자. 첫번째는 양측꼬리검정(two-tailed test)이고 두번째는 단측꼬리검정(one-tailed test) 문제이다.

Problem 1: 양측꼬리검정(Two-Tailed Test)

Suppose the Acme Drug Company develops a new drug, designed to prevent colds. The company states that the drug is equally effective for men and women. To test this claim, they choose a a simple random sample of 100 women and 200 men from a population of 100,000 volunteers.

At the end of the study, 38% of the women caught a cold; and 51% of the men caught a cold. Based on these findings, can we reject the company's claim that the drug is equally effective for men and women? Use a 0.05 level of significance.

이 문제는 (1)가설 수립, (2)분석계획 수립, (3)표본자료의 분석, (4) 결과해석 의 4단계를 통해 풀어보자.

가설수립(State the hypotheses)
먼저, 귀무가설과 대립가설을 세워보자.
귀무가설(Null hypothesis): P₁ = P₂
대립가설(Alternative hypothesis): P₁ ≠ P₂

이 가설은 양쯕꼬리검정을 해야 함에 주의하자. 귀무가설은 모집단 1의 비율이 너무 크거나 너무 작은 경우에 기각될 것이다.
분석계획의 수립(Formulate an analysis plan)
유의수준은 0.05 이고, 검정 방법은 양비율 z 검정(two-proportion z-test)이다.
표본자료의 분석(Analyze sample data)
표본 자료를 이용해 표본 비율(p)과 표준오차(SE)를 구하고, 검정 통계량인 z 점수를 계산한다.
p = (p₁ * n₁ + p₂ * n₂) / (n₁ + n₂) = [(0.38 * 100) + (0.51 * 200)] / (100 + 200) = 140/300 = 0.467

SE = sqrt{ p * ( 1 - p ) * [ (1/n₁) + (1/n₂) ] }
SE = sqrt [ 0.467 * 0.533 * ( 1/100 + 1/200 ) ] = sqrt [0.003733] = 0.061

z = (p₁ - p₂) / SE = (0.51 - 0.38)/0.061 = 2.13

여기서 p₁ 은 모집단 1의 표본 비율, p₂ 는 모집단 2의 표본 비율, n₁ 표본 1의 크기, n₂ 는 표본 2의 크기이다.

양측꼬리검정이기 때문에 P 값은 z 점수가 -2.13보다 작거나 2.13보다 클 확률을 나타낸다.

정규 누적확률분포표 또는 계산기를 이용해 P(z < -2.13) = 0.017 이고 P(z > 2.13) = 0.017 임을 알 수 있다. 따라서 P 값(P-value) = 0.017 + 0.017 = 0.034 이다.
결과해석(Interpret results)
P 값(0.034)이 유의수준 (0.05) 보다 작으므로 귀무가설을 채택할 수 없다.

주) 만일 시험에서 양비율 z검정을 사용했다면, 왜 이 방법이 적합한지 언급할 필요가 있다. 표집방법이 단순임의표집이고, 표본이 서로 독립이며, 표본이 적어도 10개의 성공과 10개의 실패를 포함하고 있고, 모집단의 크기가 표본 크기보다 적어도 10배 이상인 경우에 해당하므로 문제에 적용한 방법은 적합하다.

Problem 2: 단측꼬리검정(One-Tailed Test)

Suppose the previous example is stated a little bit differently. Suppose the Acme Drug Company develops a new drug, designed to prevent colds. The company states that the drug is more effective for women than for men. To test this claim, they choose a a simple random sample of 100 women and 200 men from a population of 100,000 volunteers.

At the end of the study, 38% of the women caught a cold; and 51% of the men caught a cold. Based on these findings, can we conclude that the drug is more effective for women than for men? Use a 0.01 level of significance.

이 문제는 (1)가설 수립, (2)분석계획 수립, (3)표본자료의 분석, (4) 결과해석 의 4단계를 통해 풀어보자.

가설수립(State the hypotheses)
먼저, 귀무가설과 대립가설을 세워보자.
귀무가설(Null hypothesis): P₁ = P₂
대립가설(Alternative hypothesis): P₁ < P₂

이 가설은 단측꼬리검정을 해야 함에 주의하자. 귀무가설은 감기에 걸린 여자 비율(p₁)이 감기에 걸린 남자 비율 (p₂)보다 충분히 작은 경우에 기각될 것이다.

분석계획의 수립(Formulate an analysis plan)
유의수준은 0.01 이고, 검정 방법은 양비율 z 검정(two-proportion z-test)이다.
표본자료의 분석(Analyze sample data)
표본 자료를 이용해 표본 비율(p)과 표준오차(SE)를 구하고, 검정 통계량인 z 점수를 계산한다

p = (p₁ * n₁ + p₂ * n₂) / (n₁ + n₂) = [(0.38 * 100) + (0.51 * 200)] / (100 + 200) = 140/300 = 0.467

SE = sqrt{ p * ( 1 - p ) * [ (1/n₁) + (1/n₂) ] }
SE = sqrt [ 0.467 * 0.533 * ( 1/100 + 1/200 ) ] = sqrt [0.003733] = 0.061

z = (p₁ - p₂) / SE = (0.38 - 0.51)/0.061 = -2.13

여기서 p₁ 은 모집단 1의 표본 비율, p₂ 는 모집단 2의 표본 비율, n₁ 표본 1의 크기, n₂ 는 표본 2의 크기이다.

단측꼬리검정이기 때문에 P 값은 z 점수가 -2.13보다 작을 확률을 나타낸다.

정규 누적확률분포표 또는 계산기를 이용해 P(z < -2.13) = 0.017 이므로 P 값(P-value) = 0.017 이다.
결과해석(Interpret results)
P 값(0.017)이 유의수준 (0.01) 보다 크다. 따라서 귀무가설을 기각할 수 없다.

'AP Statistics > 하루 10분 AP Stat.' 카테고리의 다른 글

하루에 10분씩 공부하는 AP Statistics - #58 평균차이 검정(Hypothesis Test for the Difference Between Two Means) (0)	2011.05.31
하루에 10분씩 공부하는 AP Statistics - #57 평균 검정(Hypothesis Test of the Mean) (0)	2011.05.31
하루에 10분씩 공부하는 AP Statistics - #55 비율 검정(Hypothesis Test for a Proportion) (2)	2011.05.31
하루에 10분씩 공부하는 AP Statistics - #54 가설검정 방법(How to Test Hypotheses) (0)	2011.05.31

AP Calculus / AP Statistics / SAT I, II Math

하루에 10분씩 공부하는 AP Statistics - #56 비율차이 검정(Hypothesis Test for Difference Between Proportions)

'AP Statistics > 하루 10분 AP Stat.' 카테고리의 다른 글

티스토리툴바

하루에 10분씩 공부하는 AP Statistics - #56 비율차이 검정(Hypothesis Test for Difference Between Proportions)

'AP Statistics > 하루 10분 AP Stat.' 카테고리의 다른 글

'AP Statistics/하루 10분 AP Stat.' Related Articles

티스토리툴바