하루에 10분씩 공부하는 AP Statistics - #46 비율의 추정(Estimating a Proportion)
여기서는 표본 비율(sample proportion) p에 대한 신뢰구간을 어떻게 정하는지 알아보자.
▶ 추정 조건 (Estimation Requirements)
앞으로 다루는 추정방법은 다음 조건이 만족되었을 경우에만 적용가능 하다.
- 표집방법이 단순임의표집(simple random sampling)인 경우
- 표본이 적어도 10번의 성공과 10번의 실패를 포함하는 경우
(일부 책에서는 5번의 성공과 5번의 실패면 충분하다고 보기도 함)
▶ 표본비율의 변동성(The Variability of the Sample Proportion)
표본 비율에 대한 신뢰구간을 정하기 위해서 표본 비율의 변동성을 알아야 한다. 즉, 표집분포의 표준편차 또는 표준오차를 계산할 수 있어야 한다.
- 모집단에서 크기가 n인 표본 k개를 추출했다고 하자. 표집분포의 표준편차는 모집단 비율의 참값 P와 k개 표본 비율간에 "평균" 편차이다. 표본 비율의 표준편차 σp 는 다음식으로 구한다.
σp = sqrt[ P * ( 1 - P ) / n ] * sqrt[ ( N - n ) / ( N - 1 ) ]
여기서 P는 모집단 비율, n은 표본의 크기, N은 모집단의 크기이다. 모집단의 크기가 표본의 크기보다 훨씬 크다면 (적어도 10배 이상) 표준편차는 다음 식에 의해 근사된다.σp = sqrt[ P * ( 1 - P ) / n ]
- 모집단 비율의 참값 P가 알려져 있지 않다면 표집분포의 표준편차를 계산할 수 없다. 이런 경우에는 표준오차를 사용한다. 표준오차(SE)는 표준편차의 불편추정량(unbiased estimate)이고, 다음 식에 의해 계산한다.
SEp = sqrt[ p * ( 1 - p ) / n ] * sqrt[ ( N - n ) / ( N - 1 ) ]
여기서 p는 표본 비율이고, n은 표본의 크기, N은 모집단의 크기이다. 모집단의 크기가 표본의 크기보다 훨씬 크다면 (적어도 10배 이상) 표준오차는 다음 식에 의해 근사된다.SEp = sqrt[ p * ( 1 - p ) / n ]
▶ 비율의 신뢰구간 설정(How to Find the Confidence Interval for a Proportion)
앞서 신뢰구간을 정하는 법을 살펴보았다. 다시 한 번 요약하면 아래와 같다.
- 표본 통계량을 구한다.
표본 비율을 모집단 비율을 추정하기 위해 사용한다.
- 신뢰수준을 정한다.
신뢰수준은 표집방법의 불확실성을 나타낸다. 보통 90%, 95%, 99% 신뢰수준을 많이 사용하고, 다른 신뢰수준도 사용할 수 있다.
- 오차한계를 구한다.
앞서 오차한계를 계산하는 법을 살펴보았다.
- 신뢰구간을 정한다.
신뢰구간은 표본통계량 + 오차한계(sample statistic + margin of error)로 구하고, 불확실성은 신뢰수준으로 나타낸다.
다음 문제를 통해 비율에 대한 신뢰구간을 어떻게 구하는지 살펴보도록 하자.
확인하고 넘어가기
Problem1
A major metropolitan newspaper selected a simple random sample of 1,600 readers from their list of 100,000 subscribers. They asked whether the paper should increase its coverage of local news. Forty percent of the sample wanted more local news. What is the 99% confidence interval for the proportion of readers who would like more coverage of local news?
(A) 0.30 to 0.50
(B) 0.32 to 0.48
(C) 0.35 to 0.45
(D) 0.37 to 0.43
(E) 0.39 to 0.41