하루에 10분씩 공부하는 AP Statistics - #47 비율 차이(Difference Between Proportions)

하루에 10분씩 공부하는 AP Statistics - #47 비율 차이(Difference Between Proportions)

여기서는 두 표본 비율 간의 차이 p₁ - p₂ 에 대한 신뢰구간을 어떻게 구하는지 알아보자.

▶ 추정 조건(Estimation Requirements)

앞으로 다루는 추정방법은 다음 조건이 만족되었을 경우에만 적용가능 하다.

표집방법이 단순임의표집(simple random sampling)인 경우
표본이 서로 독립인 경우
표본이 적어도 10번의 성공과 10번의 실패를 포함하는 경우
(일부 책에서는 5번의 성공과 5번의 실패면 충분하다고 보기도 함)

▶ 비율 차이의 변동성(The Variability of the Difference Between Proportions)

두 표본 비율 차이에 대한 신뢰구간을 정하기 위해서 표본 비율 차이의 표집분포의 변동성을 알아야 한다. 즉, 표집분포의 표준편차 또는 표준오차를 계산할 수 있어야 한다.

표집분포의 표준편차는 모집단 비율 차이의 참값 (P₁ - P₂)과 가능한 모든 표본 비율 차이(p₁ - p₂) 사이의 "평균" 편차이다. 표본 비율 차이의 표준편차 σ_p₁ _- _p₂ 는 다음 식으로 구한다.
σ_p₁ _- _p₂ = sqrt{ [P₁ * (1 - P₁) / n₁] * [(N₁ - n₁) / (N₁ - 1)] + [P₂ * (1 - P₂) / n₂] * [(N₂ - n₂) / (N₂ - 1)] }
여기서 P₁ 은 표본1의 모집단 비율, P₂ 는 표본2의 모집단 비율, n₁ 모집단1의 표본크기, n₂ 모집단2의 표본 크기, N₁ 모집단 1의 관측값 개, N₂ 모집단2의 관측값 개수이다. 각 표본의 크기가 작다면(모집단 크기의 10% 이내), 표준편차는 다음 식에 의해 근사된다.
σ_p₁ _- _p₂ = sqrt{ [P₁ * (1 - P₁) / n₁] + [P₂ * (1 - P₂) / n₂] }
모집단 모수(P₁ 과 P₂)가 알려져 있지 않다면 표집분포의 표준편차를 계산할 수 없다. 이런 경우에는 표준오차를 사용한다. 표준오차(SE)는 표준편차의 불편추정량(unbiased estimate)이고, 다음 식에 의해 계산한다.
SE_p₁ _- _p₂ = sqrt{ [p₁ * (1 - p₁) / n₁] * [(N₁ - n₁) / (N₁ - 1)] + [p₂ * (1 - p₂) / n₂] * [(N₂ - n₂) / (N₂ - 1)] }
여기서 p₁ 표본1의 표본비율, p₂ 는 표본2의 표본비율이다. 각 표본의 크기가 작다면(모집단 크기의 10% 이내), 표준편차는 다음 식에 의해 근사된다.
SE_p₁ _- _p₂ = sqrt{ [p₁ * (1 - p₁) / n₁] + [p₂ * (1 - p₂) / n₂] }

주) AP Statistics에서는 표준편차와 표준오차의 "근사식"만 다룬다.
하지만, 근사식은 각 표본보다 모집단이 적어도 10배 이상 큰 경우에만 사용할 수 있다는 한계를 알아야 한다.

참고

일부 책에서는 다른 근사식을 사용하기도 한다. 아래의 식은 두 비율이 서로 같은 경우에 적용할 수 있다.

σ_p₁ _- _p₂ = sqrt[P * (1 - P)] * sqrt[ (1 / n₁) + (1 / n₂)] where P = P₁ = P₂
SE_p₁ _- _p₂ = sqrt[p * (1 - p)] * sqrt[ (1 / n₁) + (1 / n₂)] where p = p₁ = p₂

이 식들은 각 표본의 크기가 작고(모집단의 크기보다 작고) 두 그룹의 비율이 서로 같은 경우에만 적용가능한 식이라는 점에 주의하자.

▶ 비율 차이에 대한 신뢰구간 설정(How to Find the Confidence Interval for a Proportion )

앞서 신뢰구간을 정하는 법을 살펴보았다. 다시 한 번 요약하면 아래와 같다.

표본 통계량을 구한다.
모집단 비율 차이(P₁ - P₂)를 추정하기 위해 표본 비율 차이(p₁ - p₂)를 사용한다.
신뢰수준을 정한다.
신뢰수준은 표집방법의 불확실성을 나타낸다. 보통 90%, 95%, 99% 신뢰수준을 많이 사용하고, 다른 신뢰수준도 사용할 수 있다.
오차한계를 구한다.
앞서 오차한계를 계산하는 법을 살펴보았다.
신뢰구간을 정한다.
신뢰구간은 표본통계량 + 오차한계(sample statistic + margin of error)로 구하고, 불확실성은 신뢰수준으로 나타낸다.

다음 문제를 통해 비율 차이에 대한 신뢰구간을 어떻게 구하는지 살펴보도록 하자.

확인하고 넘어가기

Problem1

Suppose the Cartoon Network conducts a nation-wide survey to assess viewer attitudes toward Superman. Using a simple random sample, they select 400 boys and 300 girls to participate in the study. Forty percent of the boys say that Superman is their favorite character, compared to thirty percent of the girls. What is the 90% confidence interval for the true difference in attitudes toward Superman?

(A) 0 to 20 percent more boys prefer Superman
(B) 2 to 18 percent more boys prefer Superman
(C) 4 to 16 percent more boys prefer Superman
(D) 6 to 14 percent more boys prefer Superman
(E) None of the above

정답은 (C).

이 문제를 올바르게 풀기 위해서는 다음 조건이 만족되어야 한다.

표집방법은 단순임의표집(simple random sampling)이어야 한다.
문제에서 단순임의표집 한다고 하였기 때문에 이 조건은 만족되었다.

두 표본은 서로 독립이다.
각 표본은 다른 표본 결과에 영향을 받지 않으므로 이 조건은 만족되었다.
표본은 적어도 10개의 성공과 10개의 실패를 포함해야 한다.
"Superman" 응답을 성공으로 간주하고, 다른 응답을 실패라고 하면 충분한 수의 성공과 실패가 있다.
표집분포는 근사적으로 정규분포여야 한다.
각 표본의 크기가 크므로, 중심극한정리에 의해 표본 비율 차이의 표집분포는 정규분포이거나 정규분포에 가까운 분포이다. 따라서, 이 조건은 만족되었다.

위의 조건들이 만족되므로 다음 4단계에 걸쳐 신뢰구간을 구할 수 있다.

표본통계량을 구한다.
모집단 비율 차이를 추정하기 위해 표본 비율 차이를 표본 통계량으로 선택한다.
즉, 표본 통계량은 p_boy - p_girl = 0.40 - 0.30 = 0.10 이다.
신뢰수준을 정한다.
이 문제에서 요구하는 90% 신뢰수준을 사용한다.
오차한계를 구한다.
앞에서 표집분포가 정규분포에 가까운 경우의 오차한계 계산법을 소개했다. 주요 단계는 다음과 같다.
- 표준편차 또는 표준오차를 구한다.
  모집단 비율을 알지 못하므로 표준편차를 계산할 수 없다. 따라서, 표준 오차를 계산하도록 한다. 모집단이 표본보다 10배 이상 크기 때문에 비율 차이의 표준오차(SE)를 구하기 위해 아래 식을 사용할 수 있다.
  SE = sqrt{ [p₁ * (1 - p₁) / n₁] + [p₂ * (1 - p₂) / n₂] }
  SE = sqrt{ [0.40 * 0.60 / 400] + [0.30 * 0.70 / 300] }
  SE sqrt[ (0.24 / 400) + (0.21 / 300) ] = sqrt(0.0006 + 0.0007) = sqrt(0.0013) = 0.036
- 임계값을 구한다.
  임계값은 오차한계를 계산하기 위해 필요하다. 임계값은 오차한계를 계산하기 위해 필요하다. 표집분포가 정규분포에 가깝고 표본의 크기가 크기 때문에 임계값을 z 점수로 나타내도록 한다.
  - 알파를 계산한다. (α): α = 1 - (confidence level / 100) = 1 - (90/100) = 0.10
  - 임계 확률을 구한다. (p*): p* = 1 - α/2 = 1 - 0.10/2 = 0.95
  - 임계값은 누적확률이 0.95인 z 점수이다. 계산기 또는 정규확률분포표를 이용하면 임계값 1.645을 구할 수 있다.
- 오차한계(ME)를 구한다. : ME = critical value * standard error = 1.645 * 0.036 = 0.06
신뢰구간을 정한다.
신뢰구간은 표본통계량 + 오차한계(sample statistic + margin of error)으로 나타내고, 불확실성은 신뢰수준으로 나타낸다.

따라서 90% 신뢰구간은 0.04 이상 0.16 이하 이다. 즉, 모집단 비율 차이의 참값이 0.10 + 0.06 범위에 포함된다고 90% 신뢰할 수 있다. 신뢰구간의 양 끝값이 모두 양수이므로 소년들이 소녀들보다 만화 주인공으로 Superman을 더 좋아한다고 말할 수 있다.

'AP Statistics > 하루 10분 AP Stat.' 카테고리의 다른 글

하루에 10분씩 공부하는 AP Statistics - #49 평균 차이(Difference Between Means) (0)	2011.05.31
하루에 10분씩 공부하는 AP Statistics - #48 모집단 평균 추정(Estimating the Population Mean) (0)	2011.05.31
하루에 10분씩 공부하는 AP Statistics - #46 비율의 추정(Estimating a Proportion) (0)	2011.05.31
하루에 10분씩 공부하는 AP Statistics - #45 신뢰구간(Confidence Interval) (0)	2011.05.31

AP Calculus / AP Statistics / SAT I, II Math

하루에 10분씩 공부하는 AP Statistics - #47 비율 차이(Difference Between Proportions)

'AP Statistics > 하루 10분 AP Stat.' 카테고리의 다른 글

티스토리툴바

하루에 10분씩 공부하는 AP Statistics - #47 비율 차이(Difference Between Proportions)

'AP Statistics > 하루 10분 AP Stat.' 카테고리의 다른 글

'AP Statistics/하루 10분 AP Stat.' Related Articles

티스토리툴바