여기서는 두 표본 비율 간의 차이 p1 - p2 에 대한 신뢰구간을 어떻게 구하는지 알아보자.
▶ 추정 조건(Estimation Requirements)
앞으로 다루는 추정방법은 다음 조건이 만족되었을 경우에만 적용가능 하다.
- 표집방법이 단순임의표집(simple random sampling)인 경우
- 표본이 서로 독립인 경우
- 표본이 적어도 10번의 성공과 10번의 실패를 포함하는 경우
(일부 책에서는 5번의 성공과 5번의 실패면 충분하다고 보기도 함)
▶ 비율 차이의 변동성(The Variability of the Difference Between Proportions)
두 표본 비율 차이에 대한 신뢰구간을 정하기 위해서 표본 비율 차이의 표집분포의 변동성을 알아야 한다. 즉, 표집분포의 표준편차 또는 표준오차를 계산할 수 있어야 한다.
- 표집분포의 표준편차는 모집단 비율 차이의 참값 (P1 - P2)과 가능한 모든 표본 비율 차이(p1 - p2) 사이의 "평균" 편차이다. 표본 비율 차이의 표준편차 σp1 - p2 는 다음 식으로 구한다.
σp1 - p2 = sqrt{ [P1 * (1 - P1) / n1] * [(N1 - n1) / (N1 - 1)] + [P2 * (1 - P2) / n2] * [(N2 - n2) / (N2 - 1)] }
여기서 P1 은 표본1의 모집단 비율, P2 는 표본2의 모집단 비율, n1 모집단1의 표본크기, n2 모집단2의 표본 크기, N1 모집단 1의 관측값 개, N2 모집단2의 관측값 개수이다. 각 표본의 크기가 작다면(모집단 크기의 10% 이내), 표준편차는 다음 식에 의해 근사된다.σp1 - p2 = sqrt{ [P1 * (1 - P1) / n1] + [P2 * (1 - P2) / n2] }
- 모집단 모수(P1 과 P2)가 알려져 있지 않다면 표집분포의 표준편차를 계산할 수 없다. 이런 경우에는 표준오차를 사용한다. 표준오차(SE)는 표준편차의 불편추정량(unbiased estimate)이고, 다음 식에 의해 계산한다.
SEp1 - p2 = sqrt{ [p1 * (1 - p1) / n1] * [(N1 - n1) / (N1 - 1)] + [p2 * (1 - p2) / n2] * [(N2 - n2) / (N2 - 1)] }
여기서 p1 표본1의 표본비율, p2 는 표본2의 표본비율이다. 각 표본의 크기가 작다면(모집단 크기의 10% 이내), 표준편차는 다음 식에 의해 근사된다.SEp1 - p2 = sqrt{ [p1 * (1 - p1) / n1] + [p2 * (1 - p2) / n2] }
주) AP Statistics에서는 표준편차와 표준오차의 "근사식"만 다룬다.
하지만, 근사식은 각 표본보다 모집단이 적어도 10배 이상 큰 경우에만 사용할 수 있다는 한계를 알아야 한다.
참고
일부 책에서는 다른 근사식을 사용하기도 한다. 아래의 식은 두 비율이 서로 같은 경우에 적용할 수 있다.
- σp1 - p2 = sqrt[P * (1 - P)] * sqrt[ (1 / n1) + (1 / n2)] where P = P1 = P2
- SEp1 - p2 = sqrt[p * (1 - p)] * sqrt[ (1 / n1) + (1 / n2)] where p = p1 = p2
이 식들은 각 표본의 크기가 작고(모집단의 크기보다 작고) 두 그룹의 비율이 서로 같은 경우에만 적용가능한 식이라는 점에 주의하자.
▶ 비율 차이에 대한 신뢰구간 설정(How to Find the Confidence Interval for a Proportion )
앞서 신뢰구간을 정하는 법을 살펴보았다. 다시 한 번 요약하면 아래와 같다.
- 표본 통계량을 구한다.
모집단 비율 차이(P1 - P2)를 추정하기 위해 표본 비율 차이(p1 - p2)를 사용한다.
- 신뢰수준을 정한다.
신뢰수준은 표집방법의 불확실성을 나타낸다. 보통 90%, 95%, 99% 신뢰수준을 많이 사용하고, 다른 신뢰수준도 사용할 수 있다.
- 오차한계를 구한다.
앞서 오차한계를 계산하는 법을 살펴보았다.
- 신뢰구간을 정한다.
신뢰구간은 표본통계량 + 오차한계(sample statistic + margin of error)로 구하고, 불확실성은 신뢰수준으로 나타낸다.
다음 문제를 통해 비율 차이에 대한 신뢰구간을 어떻게 구하는지 살펴보도록 하자.
확인하고 넘어가기
Problem1
Suppose the Cartoon Network conducts a nation-wide survey to assess viewer attitudes toward Superman. Using a simple random sample, they select 400 boys and 300 girls to participate in the study. Forty percent of the boys say that Superman is their favorite character, compared to thirty percent of the girls. What is the 90% confidence interval for the true difference in attitudes toward Superman?
(A) 0 to 20 percent more boys prefer Superman
(B) 2 to 18 percent more boys prefer Superman
(C) 4 to 16 percent more boys prefer Superman
(D) 6 to 14 percent more boys prefer Superman
(E) None of the above