하루에 10분씩 공부하는 AP Statistics - #62 카이제곱 독립성 검정(Chi-Square Test for Independence)
여기에서는 독립성에 대한 카이제곱 검정(chi-square test for independence)을 하는 방법을 알아보자. 이 검정은 한 모집단 안에 두 개의 범주형 변수(categorical variependence)e)를 가진 경우에 사용하며, 두 변수 간에 유의한 상관이 있는지 여부를 결정한다.
예를 들어, 선거 조사에서 유권자를 성별(남성, 여성)과 투표 선호도(Democrat, Republican, or Independent)에 따라 구분할 수 있다. 이 때, 카이제곱 독립성 검정을 통해 성별이 투표 선호도와 관련이 있는지 여부를 판단할 수 있다.
가설검정을 하기 위해서는 먼저 다음 조건이 만족되어야 한다.
- 표집방법이 단순임의표집인 경우
- 모집단 크기가 표본 크기보다 적어도 10배 이상인 경우
- 조사하는 변수가 범주형 변수인 경우
- 표본 자료를 분할표(contingency table)에 나타냈을 때 각 칸의 기대 빈도가 적어도 5인 경우
가설 검정은 크게 (1)가설 수립, (2)분석계획 수립, (3)표본자료의 분석, (4) 결과해석 의 4단계로 이루어진다.
▶ 가설 수립(State the Hypotheses)
변수 A 가 r 개의 수준을 갖고, 변수 B 가 c 개의 수준을 갖고 있다고 하자. 귀무가설은 변수 A 의 수준을 아는 것이 변수 B 의 수준을 예측하는데 도움이 되지 않는다 이다. 즉, 변수는 서로 독립이다 이다.
H0: Variable A and Variable B are independent. |
대릭가설은 변수 A 의 수준을 아는 것이 변수 B의 수준을 예측하는데 도움이 된다 이다.
주) 대립가설은 변수들이 관련이 있다는 것을 의미한다. 하지만 반드시 한 변수가 다른 변수의 원인이 되는 인과관계인 것은 아니다.
▶ 분석계획 수립(Formulate an Analysis Plan)
분석계획은 귀무가설을 채택하거나 기각하기 위해 표본자료를 어떻게 이용할지 명시해야 한다.
이 과정은 다음 요소를 반드시 포함해야 한다.
- 유의수준(Significance level)
보통 유의수준은 0.01, 0.05, 0.10 을 많이 사용한다.
하지만 0과 1 사이의 어떤 값이라도 사용할 수 있다.
- 검정 방법(Test method)
카이제곱 독립성 검정(chi-square test for independence)을 이용해 두 범주형 변수 간에 유의한 관계가 있는지 여부를 결정한다.
▶ 표본자료의 분석(Analyze Sample Data)
표본자료를 이용해 자유도, 기대 빈도, 검정 통계량 및 검정 통계량과 연관된 P 값을 구한다.
- 자유도(Degrees of freedom)
자유도(DF)는 다음 식을 이용해 구한다.
DF = (r - 1) * (c - 1)
여기서 r 은 첫번째 범주형 변수의 수준 수, c 는 두번째 범주형 변수의 수준 수 이다.
- 기대 빈도(Expected frequency counts)
두 범주형 변수의 각 수준에서 기대 빈도를 구한다. 모두 r * c 개의 기대빈도를 다음 식을 이용해 구한다.Er,c = (nr * nc) / n
여기서 Er,c 는 변수 A 의 수준 r 변수 B 의 수준 c 에서의 기대 빈도, nr 는 변수 A 의 수준 r 에서의 전체 표본 관측 수, nc 는 변수 B 의 수준 c 에서의 전체 표본 관측 수, n 은 전체 표본 크기이다.
- 검정 통계량(Test statistic)
검정 통계량인 카이제곱 확률변수(Χ2)는 다음 식으로 정의된다.
Χ2 = Σ [ (Or,c - Er,c)2 / Er,c ]
여기서 Or,c 는 변수 A 의 수준 r 변수 B 의 수준 c 에서의 관측 빈도, Er,c 는 변수 A 의 수준 r 변수 B 의 수준 c 에서의 기대 빈도 이다.
- P 값(P-value)
P 값은 관측된 표본 통계량이 검정 통계량만큼 극단적으로 치우칠 경우의 확률이다. 검정 통계량이 카이제곱(chi-square)이므로 위에서 계산한 자유도를 갖는 카이제곱 값은 카이제곱 누적확률분포표나 계산기를 이용해 구한다.
▶ 결과 해석(Interpret Results)
주어진 귀무가설에 해당하는 표본이 아닐 것 같다면 귀무가설을 기각한다. P 값(P-value)과 유의수준(significance leve)을 비교해 P 값이 유의수준보다 작다면 귀무가설을 기각한다.
확인하고 넘어가기
Problem
A public opinion poll surveyed a simple random sample of 1000 voters. Respondents were classified by gender (male or female) and by voting preference (Republican, Democrat, or Independent). Results are shown in the contigency table below.
Voting Preferences | ||||
Republican | Democrat | Independent | Row total | |
Male | 200 | 150 | 50 | 400 |
Female | 250 | 300 | 50 | 600 |
Column total | 450 | 450 | 100 | 1000 |
Is there a gender gap? Do the men's voting preferences differ significantly from the women's preferences? Use a 0.05 level of significance.