하루에 10분씩 공부하는 AP Statistics - #55 비율 검정(Hypothesis Test for a Proportion)
여기에서는 비율에 대한 가설검정을 하는 방법을 알아보자. 가설검정을 하기 위해서는 먼저 다음 조건이 만족되어야 한다.
- 표집방법이 단순임의표집(simple random sampling)인 경우
- 표본이 적어도 10번의 성공과 10번의 실패를 포함하는 경우
(일부 책에서는 5번의 성공과 5번의 실패면 충분하다고 보기도 함) - 모집단 크기가 표본 크기보다 적어도 10배 이상인 경우
가설 검정은 크게 (1)가설 수립, (2)분석계획 수립, (3)표본자료의 분석, (4) 결과해석 의 4단계로 이루어진다.
▶ 가설 수립(State the Hypotheses)
검정하고자 가설은 귀무가설과 대립가설의 형태로 명시한다. 귀무가설과 대립가설은 상호 배반적이어야 한다. 즉, 하나가 참이면 다른 하나가 반드시 거짓이어야 하고, 하나가 거짓이면 다른 하나가 반드시 참이어야 한다.
▶ 분석계획 수립(Formulate an Analysis Plan)
분석계획은 귀무가설을 채택하거나 기각하기 위해 표본자료를 어떻게 이용할지 명시해야 한다.
이 과정은 다음 요소를 반드시 포함해야 한다.
- 유의수준(Significance level)
보통 유의수준은 0.01, 0.05, 0.10 을 많이 사용한다.
하지만 0과 1 사이의 어떤 값이라도 사용할 수 있다.
- 검정 방법(Test method)
단일표본 z 검정(one-sample z-test)을 이용해 가정한 모집단 비율이 관측된 표본비율과 유의한 차이가 있는지 여부를 결정한다.
▶ 표본자료의 분석(Analyze Sample Data)
표본자료를 이용해 검정 통계량과 연관된 P 값을 구한다.
- 표준편차(Standard deviation)
표집분포의 표준편차(σ)를 구한다.σ = sqrt[ P * ( 1 - P ) / n ]
여기서 P는 귀무가설에서 가정한 모집단 비율이고 n 은 표본 크기이다.
- 검정 통계량(Test statistic)
검정 통계량은 다음 식으로 정의되는 z 점수(z-score) 이다.z = (p - P) / σ
여기서 P는 귀무가설에서 가정한 모집단 비율, p는 표본 비율, σ 는 표집분포의 표준편차이다.
- P 값(P-value)
P 값은 관측된 표본 통계량이 검정 통계량만큼 극단적으로 치우칠 경우의 확률이다. 검정 통계량이 z 점수이므로 정규 누적확률분포표나 계산기를 이용해 z 점수를 구한다.
▶ 결과 해석(Interpret Results)
주어진 귀무가설에 해당하는 표본이 아닐 것 같다면 귀무가설을 기각한다. P 값(P-value)과 유의수준(significance leve)을 비교해 P 값이 유의수준보다 작다면 귀무가설을 기각한다.
확인하고 넘어가기
여기서는 두 개의 예제를 통해 어떻게 비율에 대한 가설검정을 하는지 살펴보자. 첫번째는 양측꼬리검정(two-tailed test)이고 두번째는 단측꼬리검정(one-tailed test) 문제이다.
Problem 1: 양측꼬리검정(Two-Tailed Test)
The CEO of a large electric utility claims that 80 percent of his 1,000,000 customers are very satisfied with the service they receive. To test this claim, the local newspaper surveyed 100 customers, using simple random sampling. Among the sampled customers, 73 percent say they are very satisified. Based on these findings, can we reject the CEO's hypothesis that 80% of the customers are very satisfied? Use a 0.05 level of significance.
Problem 2: 단측꼬리검정(One-Tailed Test)
Suppose the previous example is stated a little bit differently. Suppose the CEO claims that at least 80 percent of the company's 1,000,000 customers are very satisfied. Again, 100 customers are surveyed using simple random sampling. The result: 73 percent are very satisfied. Based on these results, should we accept or reject the CEO's hypothesis? Assume a significance level of 0.05.