하루에 10분씩 공부하는 AP Statistics - #50 대응짝 자료의 평균 차이(Mean Difference Between Matched Data Pairs)
여기서는 대응짝 자료(mathed data pairs)의 평균 차이에 대한 신뢰구간을 어떻게 정하는지 알아보자.
▶ 추정 조건(Estimation Requirements)
앞으로 다루는 추정방법은 다음 조건이 만족되었을 경우에만 적용가능 하다.
- 관심있는 모집단에서 단순임의표집(simple random sample)한 자료이다.
- 모집단의 각 원소는 대응짝 변수(예; x and y)에 대한 측정이 가능해서 x와 y 간의 짝의 차이(paired difference) d=x-y로 구한다.
- 대응짝의 평균 차이(d)의 평균의 표집분포가 근사적으로 정규분포를 따른다.
일반적으로 표집분포는 다음 조건 중 하나가 만족되면 근사적으로 정규분포임이 알려져 있다.
- 모집단이 정규 분포인 경우
- 대칭(symmetric)이고, 이상치(outlier)가 없는 일봉분포(unimodal)이며, 표본크기가 15이내인 표집분포
- 한 쪽으로 약간 치우쳤지만(skewed), 이상치가 없는 일봉분포이며, 표본크기가 16~40인 표집분포
- 이상치가 없고, 표본크기가 40보다 큰 표집분포
▶ 대응짝의 평균 차이의 변동성(The Variability of the Mean Difference Between Matched Pairs)
d 를 대응짝의 평균 차이라고 하자. d 에 대한 신뢰구간을 구하기 위해서는 d 의 표집분포의 표준편차 또는 표준오차를 계산할 수 있어야 한다.
- 평균차이의 표준편차 σd 는 다음 식을 이용해 구한다.
σd = σd * sqrt{ ( 1/n ) * ( 1 - n/N ) * [ N / ( N - 1 ) ] }
여기서 σd 모집단 차이의 표준편차, N은 모집단 크기, n은 표본 크기이다. 모집단의 크기가 표본의 크기보다 훨씬 크다면 (적어도 10배 이상) 표준편차는 다음 식에 의해 근사된다.σd = σd / sqrt( n )
- 모집단의 표준편차 σd 가 알려져 있지 않다면 표집분포의 표준편차를 계산할 수 없다. 이런 경우에는 표준오차를 사용한다. 표준오차(SE)는 표준편차의 불편추정량(unbiased estimate)이고, 다음 식에 의해 계산한다.
SEd = sd * sqrt{ ( 1/n ) * ( 1 - n/N ) * [ N / ( N - 1 ) ] }
여기서 sd 표본 차이의 표준편차, N은 모집단 크기, n 은 표본 크기이다. 모집단의 크기가 표본의 크기보다 훨씬 크다면 (적어도 10배 이상) 표준오차는 다음 식에 의해 근사된다.SEd = sd / sqrt( n )
주) 현실적으로 모집단의 표준편차가 알려진 경우는 거의 없다. 따라서, 표준오차가 표준편차보다 더 자주 사용된다.
참고
AP 시험에서는 위에서 소개한 표준편차와 표준오차의 "근사식"만을 다룬다.
하지만, 모집단의 크기가 표본 크기보다 적어도 10배 이상인 경우에만 근사식을 사용할 수 있는 한계가 있다는 점에 주의해야 한다.
▶ 대응짝의 평균 차이에 대한 신뢰구간 설정
(How to Find the Confidence Interval for Mean Difference With Paired Data)
앞서 신뢰구간을 정하는 법을 살펴보았다. 다시 한 번 요약하면 아래와 같다.
- 표본 통계량을 구한다.
모집단 대응짝의 평균 차이 μd를 추정하기 위해 표본 대응짝의 평균 차이(d)를 사용한다.
- 신뢰수준을 정한다.
신뢰수준은 표집방법의 불확실성을 나타낸다. 보통 90%, 95%, 99% 신뢰수준을 많이 사용하고, 다른 신뢰수준도 사용할 수 있다.
- 오차한계를 구한다.
앞서 임계값과 표준편차를 이용해 오차한계를 계산하는 법을 살펴보았다.표본의 크기가 크면 t 점수나 z 점수를 사용해 임계값을 구한다. z 점수의 경우 자유도를 계산할 필요가 없어 좀 더 용이하다. 표본의 크기가 작으면(40이하) 임계값으로 t 점수를 사용한다.
t 점수를 사용하는 경우에는 자유도(degrees of freedom)를 계산해야 한다.
이 경우 자유도는 표본의 크기 - 1 즉, DF = n - 1 이다. - 신뢰구간을 정한다.
신뢰구간은 표본통계량 + 오차한계(sample statistic + margin of error)로 구하고, 불확실성은 신뢰수준으로 나타낸다.
확인하고 넘어가기
Problem1
Twenty-two students were randomly selected from a population of 1000 students. The sampling method was simple random sampling. All of the students were given a standardized English test and a standardized math test. Test results are summarized below.
|
|
Σ(d - d)2 = 270
d = 1
Find the 90% confidence interval for the mean difference between student scores of the math and English tests. Assume that the mean differences are approximately normally distributed.