하루에 10분씩 공부하는 AP Statistics - #59 대응짝 평균차이 검정(Hypothesis Test for Difference Between Matched Pairs)

하루에 10분씩 공부하는 AP Statistics - #59 대응짝 평균차이 검정(Hypothesis Test for Difference Between Matched Pairs)

여기에서는 대응짝 평균 차이에 대한 가설검정을 하는 방법을 알아보자. 검정 과정은 대응짝 t 검정(matched-pairs t-test)이며, 가설검정을 하기 위해서는 먼저 다음 조건이 만족되어야 한다.

각 모집단에 대한 표집방법이 단순임의표집(simple random sampling)인 경우
검정이 대응짝에 대해 시행되는 경우(따라서 자료는 독립이 아니다.)
정규분포 혹은 정규분포에 가까운 모집단에 표본을 추출한 경우

일반적으로 다음 조건 중 하나가 만족되면 표집분포는 근사적으로 정규분포를 따른다.

모집단이 정규 분포인 경우
대칭(symmetric)이고, 이상치(outlier)가 없는 일봉분포(unimodal)이며, 표본크기가 15이내인 표집분포
한 쪽으로 약간 치우쳤지만(skewed), 이상치가 없는 일봉분포이며, 표본크기가 16~40인 표집분포
이상치가 없고, 표본크기가 40보다 큰 표집분포

가설 검정은 크게 (1)가설 수립, (2)분석계획 수립, (3)표본자료의 분석, (4) 결과해석 의 4단계로 이루어진다.

▶ 가설 수립(State the Hypotheses)

검정하고자 가설은 귀무가설과 대립가설의 형태로 명시한다. 귀무가설과 대립가설은 상호 배반적이어야 한다. 즉, 하나가 참이면 다른 하나가 반드시 거짓이어야 하고, 하나가 거짓이면 다른 하나가 반드시 참이어야 한다.

여기서는 두 자료의 대응되는 값의 차이에서 구한 새로운 변수 d 에 대한 가설을 세운다.

d = x₁ - x₂

여기서 x₁ 첫번째 자료의 변수 x의 값, x₂ 두번째 자료에서 x₁에 대응되는 변수의 값이다.

아래 표는 가설의 3가지 경우를 나타낸 것이다. 각각은 모집단의 μ_d 와 가설에서 가정한 값 D 간의 차이에 대한 가설을 나타낸다. (아래 표에서 ≠ 은 "같지 않다"를 의미한다.)

Set	Null hypothesis	Alternative hypothesis	Number of tails
1	μ_d= D	μ_d ≠ D	2
2	μ_d > D	μ_d < D	1
3	μ_d < D	μ_d > D	1

첫번째 가설(Set 1)은 표집분포의 양쪽의 극단값이 귀무가설을 기각시키므로 양측꼬리검정의 예이다. 나머지 두 가설(Set 2, Set 3)은 표집분포의 한쪽 극단값만이 귀무가설을 기각시키므로 단측꼬리검정에 해당한다.

▶ 분석계획 수립(Formulate an Analysis Plan)

분석계획은 귀무가설을 채택하거나 기각하기 위해 표본자료를 어떻게 이용할지 명시해야 한다.
이 과정은 다음 요소를 반드시 포함해야 한다.

유의수준(Significance level)
보통 유의수준은 0.01, 0.05, 0.10 을 많이 사용한다.
하지만 0과 1 사이의 어떤 값이라도 사용할 수 있다.
검정 방법(Test method)
대응짝 t 검정(matched-pairs t-test)을 이용해 대응짝의 표본 평균 차이와 가정한 모집단 평균 차이 간에 유의한 차이가 있는지 여부를 결정한다.

▶ 표본자료의 분석(Analyze Sample Data)

표본자료를 이용해 표준편차, 표준오차, 자유도, 검정 통계량 및 검정 통계량과 연관된 P 값을 구한다.

표준편차(Standard deviation)
n개의 대응짝 차이의 표준편차를 구한다.

s_d = sqrt [ (Σ(d_i - d)² / (n - 1) ]
여기서 d_i 는 i번째 대응짝 차이, d 대응짝 차이의 표본 평균, n 대응짝의 개수 이다.
표준오차(Standard error)
d 의 표집분포의 표준오차(SE)를 계산한다.
SE = s_d * sqrt{ ( 1/n ) * ( 1 - n/N ) * [ N / ( N - 1 ) ] }
여기서 s_d 표본 차이의 표준편차, N 은 모집단 크기, n 은 표본 크기 이다. 모집단 크기가 표본 크기보다 충분히 큰(적어도 10배 이상) 경우에 표준 오차는 다음 식으로 근사된다.
SE = s_d / sqrt( n )
자유도(Degrees of freedom)
자유도(DF)는 표본 크기 - 1 이다. 즉, DF = n - 1.
검정 통계량(Test statistic)
검정 통계량인 t 점수(t)는 다음 식으로 정의된다.
t = [ (x₁ - x₂) - D ] / SE = (d - D) / SE
여기서 x₁ 표본 1의 평균, x₂ 는 표본 2의 평균, d 표본의 대응짝 차이의 평균, D 가정한 모집단 평균 차이, SE는 표준오차이다.
P 값(P-value)
P 값은 관측된 표본 통계량이 검정 통계량만큼 극단적으로 치우칠 경우의 확률이다. 검정 통계량이 t 점수이므로 위에서 계산한 자유도를 갖는 t 점수는 t 누적확률분포표나 계산기를 이용해 구한다.

▶ 결과 해석(Interpret Results)

주어진 귀무가설에 해당하는 표본이 아닐 것 같다면 귀무가설을 기각한다. P 값(P-value)과 유의수준(significance leve)을 비교해 P 값이 유의수준보다 작다면 귀무가설을 기각한다.

확인하고 넘어가기

Problem1

Forty-four sixth graders were randomly selected from a school district. Then, they were divided into 22 matched pairs, each pair having equal IQ's. One member of each pair was randomly selected to receive special training. Then, all of the students were given an IQ test. Test results are summarized below.

Pair	Training	No training	Difference, d	(d - d)²
1	95	90	5	16
2	89	85	4	9
3	76	73	3	4
4	92	90	2	1
5	91	90	1	0
6	53	53	0	1
7	67	68	-1	4
8	88	90	-2	9
9	75	78	-3	16
10	85	89	-4	25
11	90	95	-5	36

Pair	Training	No training	Difference, d	(d - d)²
12	85	83	2	1
13	87	83	4	9
14	85	83	2	1
15	85	82	3	4
16	68	65	3	4
17	81	79	2	1
18	84	83	1	0
19	71	60	11	100
20	46	47	-1	4
21	75	77	-2	9
22	80	83	-3	16

Σ(d - d)² = 270
d = 1

Do these results provide evidence that the special training helped or hurt student performance? Use an 0.05 level of significance. Assume that the mean differences are approximately normally distributed.

이 문제는 (1)가설 수립, (2)분석계획 수립, (3)표본자료의 분석, (4) 결과해석 의 4단계를 통해 풀어보자.

가설수립(State the hypotheses)
먼저, 귀무가설과 대립가설을 세워보자.

귀무가설(Null hypothesis): μ_d = 0
대립가설(Alternative hypothesis): μ_d ≠ 0

이 가설은 양쯕꼬리검정을 해야 함에 주의하자. 귀무가설은 표본 평균 차이가 너무 크거나 너무 작은 경우에 기각될 것이다.

분석계획의 수립(Formulate an analysis plan)
유의수준은 0.05 이고, 검정 방법은 대응짝 t 검정(matched-pairs t-test)이다.
표본자료의 분석(Analyze sample data)
표본 자료를 이용해 차이의 표준편차(s), 평균 차이의 표준오차(SE)와 자유도(DF)를 구하고, 검정 통계량인 t 점수를 계산한다.
s = sqrt [ (Σ(d_i - d)² / (n - 1) ] = sqrt[ 270/(22-1) ] = sqrt(12.857) = 3.586

SE = s / sqrt(n) = 3.586 / [ sqrt(22) ] = 3.586/4.69 = 0.765

DF = n - 1 = 22 -1 = 21

t = [ (x₁ - x₂) - D ] / SE = (d - D)/ SE = (1 - 0)/0.765 = 1.307

여기서 d_i 는 i번째 대응짝 차이, d 대응짝 차이의 표본 평균, D는 모집단 대응짝 평균 차이의 가정값, n 대응짝의 개수 이다.

양측꼬리검정이기 때문에 P 값은 자유도가 21인 t 점수가 -1.307보다 작거나 1.307보다 클 확률을 나타낸다.

t 누적확률분포표 또는 계산기를 이용해 P(t < -1.307) = 0.103 이고 P(t > 1.307) = 0.103 임을 알 수 있다. 따라서 P 값(P-value) =0.103 + 0.103 = 0.206 이다.
결과해석(Interpret results)
P 값(0.206)이 유의수준 (0.05) 보다 크므로 귀무가설을 기각할 수 없다.

주) 만일 시험에서 대응짝 t 검정을 사용했다면, 왜 이 방법이 적합한지 언급할 필요가 있다. 표집방법이 단순임의표집이고 표본이 대응짝 자료로 구성되어 있으며, 평균 차이는 정규분포를 따른다. 또한 표본 크기가 모집단 크기보다 충분히 작기 때문에 표준오차는 근사식을 이용해 구했다. 따라서 문제에 적용한 방법은 적합하다.

'AP Statistics > 하루 10분 AP Stat.' 카테고리의 다른 글

하루에 10분씩 공부하는 AP Statistics - #61 카이제곱 동질성 검정(Chi-Square Test for Homogeneity) (0)	2011.05.31
하루에 10분씩 공부하는 AP Statistics - #60 카이제곱 적합도 검정 (Chi-Square Goodness-of-Fit Test) (0)	2011.05.31
하루에 10분씩 공부하는 AP Statistics - #58 평균차이 검정(Hypothesis Test for the Difference Between Two Means) (0)	2011.05.31
하루에 10분씩 공부하는 AP Statistics - #57 평균 검정(Hypothesis Test of the Mean) (0)	2011.05.31

AP Calculus / AP Statistics / SAT I, II Math

하루에 10분씩 공부하는 AP Statistics - #59 대응짝 평균차이 검정(Hypothesis Test for Difference Between Matched Pairs)

'AP Statistics > 하루 10분 AP Stat.' 카테고리의 다른 글

티스토리툴바

하루에 10분씩 공부하는 AP Statistics - #59 대응짝 평균차이 검정(Hypothesis Test for Difference Between Matched Pairs)

'AP Statistics > 하루 10분 AP Stat.' 카테고리의 다른 글

'AP Statistics/하루 10분 AP Stat.' Related Articles

티스토리툴바