AP Statistics/하루 10분 AP Stat.

하루에 10분씩 공부하는 AP Statistics - #60 카이제곱 적합도 검정 (Chi-Square Goodness-of-Fit Test)

고강사 2011. 5. 31. 18:08
반응형

하루에 10분씩 공부하는 AP Statistics - #60 카이제곱 적합도 검정 (Chi-Square Goodness-of-Fit Test)


여기에서는 카이제곱 적합도 검정(chi-square goodness of fit test)을 하는 방법을 알아보자. 이 검정은 한 모집단 안에 하나의 범주형 변수(categorical variable)를 가진 경우에 사용하며, 표본 자료가 가정한 분포와 일치하는지 결정한다.

예를 들어, 야구카드를 만드는 한 회사에서 야구카드의 30%는 루키이고, 60%는 베테랑, 10%는 올스타 선수라고 한다. 이 경우 야구카드의 임의표본을 모아 카이제곱 적합도 검정을 통해 회사가 말한 분포와 표집 분포 간에 유의한 차이가 있는지 확인할 수 있다.

가설검정을 하기 위해서는 먼저 다음 조건이 만족되어야 한다.

  • 표집방법이 단순임의표집인 경우
  • 모집단 크기가 표본 크기보다 적어도 10배 이상인 경우
  • 조사하는 변수가 범주형 변수인 경우
  • 변수의 각 수준의 기대값이 적어도 5인 경우

가설 검정은 크게 (1)가설 수립, (2)분석계획 수립, (3)표본자료의 분석, (4) 결과해석 의 4단계로 이루어진다.




▶ 가설 수립(State the Hypotheses)

검정하고자 가설은 귀무가설과 대립가설의 형태로 명시한다. 귀무가설과 대립가설은 상호 배반적이어야 한다. 즉, 하나가 참이면 다른 하나가 반드시 거짓이어야 하고, 하나가 거짓이면 다른 하나가 반드시 참이어야 한다.

카이제곱 적합도 검정을 위해 가설은 다음과 같은 형태로 나타낸다.

H0: 자료는 특정 분포와 일치한다.
Ha: 자료는 특정 분포와 일치하지 않는다.

보통 귀무가설은 범주형 변수의 각 수준에 해당하는 관측값의 비율을 명시하고, 대립가설은 명시된 비율 중 하나라도 참이 아니다로 나타낸다.




▶ 분석계획 수립(Formulate an Analysis Plan)

분석계획은 귀무가설을 채택하거나 기각하기 위해 표본자료를 어떻게 이용할지 명시해야 한다.
이 과정은 다음 요소를 반드시 포함해야 한다.

  • 유의수준(Significance level)
    보통 유의수준은 0.01, 0.05, 0.10 을 많이 사용한다.
    하지만 0과 1 사이의 어떤 값이라도 사용할 수 있다.

  • 검정 방법(Test method)
    카이제곱 적합도 검정(chi-square goodness of fit test)을 이용해 관측된 표본 빈도가 귀무가설에 명시된 기대 빈도와 유의한 차이가 있는지 여부를 결정한다.




▶ 표본자료의 분석(Analyze Sample Data)

표본자료를 이용해 자유도, 기대 빈도, 검정 통계량 및 검정 통계량과 연관된 P 값을 구한다.

  • 자유도(Degrees of freedom)
    자유도(DF)는 범주형 변수의 수준 수(k) 에서 1을 뺀 값이다. 즉, DF = k - 1 이다.

  • 기대 빈도(Expected frequency counts)
    범주형 변수의 각 수준의 기대 빈도는 귀무가설에서 가정한 비율에 표본 크기를 곱한 값과 같다.

    Ei = npi

    여기서 Ei 는 범주형 변수의 i번째 수준의 기대빈도, n 은 전체 표본 크기, pi 는 i번째 수준에서 가정한 비율이다.


  • 검정 통계량(Test statistic)
    검정 통계량인 카이제곱 확률변수(Χ2)는 다음 식으로 정의한다.

    Χ2 = Σ [ (Oi - Ei)2 / Ei ]

    여기서 Oi 범주형 변수의 i번째 수준의 관측 빈도, Ei 범주형 변수의 i번째 수준의 기대 빈도 이다.


  • P 값(P-value)
    P 값은 관측된 표본 통계량이 검정 통계량만큼 극단적으로 치우칠 경우의 확률이다. 검정 통계량이 카이제곱(chi-square)이므로 위에서 계산한 자유도를 갖는 카이제곱 값은 카이제곱 누적확률분포표나 계산기를 이용해 구한다.




▶ 결과 해석(Interpret Results)

주어진 귀무가설에 해당하는 표본이 아닐 것 같다면 귀무가설을 기각한다. P 값(P-value)과 유의수준(significance leve)을 비교해 P 값이 유의수준보다 작다면 귀무가설을 기각한다.




확인하고 넘어가기

Problem

Acme Toy Company prints baseball cards. The company claims that 30% of the cards are rookies, 60% veterans, and 10% are All-Stars. The cards are sold in packages of 100.

Suppose a randomly-selected package of cards has 50 rookies, 45 veterans, and 5 All-Stars. Is this consistent with Acme's claim? Use a 0.05 level of significance.



반응형