하루에 10분씩 공부하는 AP Statistics - #61 카이제곱 동질성 검정(Chi-Square Test for Homogeneity)
여기에서는 동질성에 대한 카이제곱 검정(chi-square test for homogeneity)을 하는 방법을 알아보자. 이 검정은 서로 다른 두 모집단이 하나의 범주형 변수(categorical variable)를 가진 경우에 사용하며, 두 다른 모집단의 빈도 분포가 동일한지 여부를 결정한다.
예를 들어, 가장 좋아하는 프로그램을 TV 시청 선호도 조사를 통해 알 수 있다. 이 때, 남성과 여성이라는 서로 다른 모집단에 대해 동일한 질문을 하고, 카이제곱 동질성 검정을 통해 남성과 여성의 시청 선호도 간의 유의한 차이가 있는지 확인할 수 있다.
가설검정을 하기 위해서는 먼저 다음 조건이 만족되어야 한다.
- 표집방법이 단순임의표집인 경우
- 모집단 크기가 표본 크기보다 적어도 10배 이상인 경우
- 조사하는 변수가 범주형 변수인 경우
- 변수의 각 수준의 기대값이 적어도 5인 경우
가설 검정은 크게 (1)가설 수립, (2)분석계획 수립, (3)표본자료의 분석, (4) 결과해석 의 4단계로 이루어진다.
▶ 가설 수립(State the Hypotheses)
검정하고자 가설은 귀무가설과 대립가설의 형태로 명시한다. 귀무가설과 대립가설은 상호 배반적이어야 한다. 즉, 하나가 참이면 다른 하나가 반드시 거짓이어야 하고, 하나가 거짓이면 다른 하나가 반드시 참이어야 한다.
자료가 r개의 모집단에서 표집되고, 범주형 변수의 수준이 c 개인 경우를 생각해보자. 범주형 변수의 특정 수준에서 귀무가설은 각 모집단이 동일한 관측 비율을 가진다로 나타낸다. 즉, ,
H0: Plevel 1 of population 1 = Plevel 1 of population 2 = . . . = Plevel 1 of population r |
대립가설(Ha)은 귀무가설 중 적어도 하나는 거짓이다로 나타낸다.
▶ 분석계획 수립(Formulate an Analysis Plan)
분석계획은 귀무가설을 채택하거나 기각하기 위해 표본자료를 어떻게 이용할지 명시해야 한다.
이 과정은 다음 요소를 반드시 포함해야 한다.
- 유의수준(Significance level)
보통 유의수준은 0.01, 0.05, 0.10 을 많이 사용한다.
하지만 0과 1 사이의 어떤 값이라도 사용할 수 있다.
- 검정 방법(Test method)
카이제곱 동질성 검정(chi-square test for homogeneity)을 이용해 관측된 표본 빈도가 귀무가설에 명시된 기대 빈도와 유의한 차이가 있는지 여부를 결정한다.
▶ 표본자료의 분석(Analyze Sample Data)
표본자료를 이용해 자유도, 기대 빈도, 검정 통계량 및 검정 통계량과 연관된 P 값을 구한다.
- 자유도(Degrees of freedom)
자유도(DF)는 다음 식을 이용해 구한다.
DF = (r - 1) * (c - 1)
여기서 r 은 모집단의 수, c 는 범주형 변수의 수준 수 이다.
- 기대 빈도(Expected frequency counts)
범주형 변수의 각 수준에서 각 모집단의 기대 빈도는 다음 식을 이용해 구한다.
Er,c = (nr * nc) / n
여기서 Er,c 은 모집단 r 의 범주형 변수 수준 c 에서의 기대 빈도, nr 은 모집단 r 의 전체 관측값의 수, nc 는 수준 c 의 전체 관측값의 수, n 은 전체 표본 크기이다.
- 검정 통계량(Test statistic)
검정 통계량인 카이제곱 확률변수(Χ2)는 다음 식으로 정의된다.
Χ2 = Σ [ (Or,c - Er,c)2 / Er,c ]
여기서 Or,c 모집단 r 의 범주형 변수 수준 c 에서의 관측 빈도, Er,c 는 모집단 r 의 범주형 변수 수준 c 에서의 기대 빈도 이다.
- P 값(P-value)
P 값은 관측된 표본 통계량이 검정 통계량만큼 극단적으로 치우칠 경우의 확률이다. 검정 통계량이 카이제곱(chi-square)이므로 위에서 계산한 자유도를 갖는 카이제곱 값은 카이제곱 누적확률분포표나 계산기를 이용해 구한다. - P 값(P-value)
▶ 결과 해석(Interpret Results)
주어진 귀무가설에 해당하는 표본이 아닐 것 같다면 귀무가설을 기각한다. P 값(P-value)과 유의수준(significance leve)을 비교해 P 값이 유의수준보다 작다면 귀무가설을 기각한다.
확인하고 넘어가기
Problem
In a study of the television viewing habits of children, a developmental psychologist selects a random sample of 300 first graders - 100 boys and 200 girls. Each child is asked which of the following TV programs they like best: The Lone Ranger, Sesame Street, or The Simpsons. Results are shown in the contigency table below.
Viewing Preferences | ||||
Lone Ranger | Sesame Street | The Simpsons | Row total | |
Boys | 50 | 30 | 20 | 100 |
Girls | 50 | 80 | 70 | 200 |
Column total | 100 | 110 | 90 | 300 |
Do the boys' preferences for these TV programs differ significantly from the girls' preferences? Use a 0.05 level of significance.