본문 바로가기

AP Statistics/하루 10분 AP Stat.

하루에 10분씩 공부하는 AP Statistics - #50 대응짝 자료의 평균 차이(Mean Difference Between Matched Data Pairs)

반응형

하루에 10분씩 공부하는 AP Statistics - #50 대응짝 자료의 평균 차이(Mean Difference Between Matched Data Pairs)


여기서는 대응짝 자료(mathed data pairs)의 평균 차이에 대한 신뢰구간을 어떻게 정하는지 알아보자.



▶ 추정 조건(Estimation Requirements)

앞으로 다루는 추정방법은 다음 조건이 만족되었을 경우에만 적용가능 하다.

  • 관심있는 모집단에서 단순임의표집(simple random sample)한 자료이다.
  • 모집단의 각 원소는 대응짝 변수(예; x and y)에 대한 측정이 가능해서 x와 y 간의 짝의 차이(paired difference) d=x-y로 구한다.
  • 대응짝의 평균 차이(d)의 평균의 표집분포가 근사적으로 정규분포를 따른다. 

일반적으로 표집분포는 다음 조건 중 하나가 만족되면 근사적으로 정규분포임이 알려져 있다.

  • 모집단이 정규 분포인 경우
  • 대칭(symmetric)이고, 이상치(outlier)가 없는 일봉분포(unimodal)이며, 표본크기가 15이내인 표집분포
  • 한 쪽으로 약간 치우쳤지만(skewed), 이상치가 없는 일봉분포이며, 표본크기가 16~40인 표집분포
  • 이상치가 없고, 표본크기가 40보다 큰 표집분포




▶ 대응짝의 평균 차이의 변동성(The Variability of the Mean Difference Between Matched Pairs)

d 를 대응짝의 평균 차이라고 하자. d 에 대한 신뢰구간을 구하기 위해서는 d 의 표집분포의 표준편차 또는 표준오차를 계산할 수 있어야 한다.

  • 평균차이의 표준편차 σd 는 다음 식을 이용해 구한다. 

    σd = σd * sqrt{ ( 1/n ) * ( 1 - n/N ) * [ N / ( N - 1 ) ] }

    여기서 σd 모집단 차이의 표준편차, N은 모집단 크기, n은 표본 크기이다. 모집단의 크기가 표본의 크기보다 훨씬 크다면 (적어도 10배 이상) 표준편차는 다음 식에 의해 근사된다.

    σd = σd / sqrt( n )

  • 모집단의 표준편차 σd 가 알려져 있지 않다면 표집분포의 표준편차를 계산할 수 없다. 이런 경우에는 표준오차를 사용한다. 표준오차(SE)는 표준편차의 불편추정량(unbiased estimate)이고, 다음 식에 의해 계산한다.

    SEd = sd * sqrt{ ( 1/n ) * ( 1 - n/N ) * [ N / ( N - 1 ) ] }

    여기서 sd 표본 차이의 표준편차, N은 모집단 크기, n 은 표본 크기이다. 모집단의 크기가 표본의 크기보다 훨씬 크다면 (적어도 10배 이상) 표준오차는 다음 식에 의해 근사된다.   

    SEd = sd / sqrt( n )

주) 현실적으로 모집단의 표준편차가 알려진 경우는 거의 없다. 따라서, 표준오차가 표준편차보다 더 자주 사용된다.


참고

AP 시험에서는 위에서 소개한 표준편차와 표준오차의 "근사식"만을 다룬다.
하지만, 모집단의 크기가 표본 크기보다 적어도 10배 이상인 경우에만 근사식을 사용할 수 있는 한계가 있다는 점에 주의해야 한다.





▶ 대응짝의 평균 차이에 대한 신뢰구간 설정
    (How to Find the Confidence Interval for Mean Difference With Paired Data)

앞서 신뢰구간을 정하는 법을 살펴보았다. 다시 한 번 요약하면 아래와 같다.

  • 표본 통계량을 구한다.
    모집단 대응짝의 평균 차이 μd를 추정하기 위해 표본 대응짝의 평균 차이(d)를 사용한다.

  • 신뢰수준을 정한다.
    신뢰수준은 표집방법의 불확실성을 나타낸다. 보통 90%, 95%, 99% 신뢰수준을 많이 사용하고, 다른 신뢰수준도 사용할 수 있다.

  • 오차한계를 구한다.
    앞서 임계값과 표준편차를 이용해 오차한계를 계산하는 법을 살펴보았다. 

    표본의 크기가 크면 t 점수나 z 점수를 사용해 임계값을 구한다. z 점수의 경우 자유도를 계산할 필요가 없어 좀 더 용이하다. 표본의 크기가 작으면(40이하) 임계값으로 t 점수를 사용한다.

    t 점수를 사용하는 경우에는 자유도(degrees of freedom)를 계산해야 한다.
    이 경우 자유도는 표본의 크기 - 1 즉, DF = n - 1 이다.

  • 신뢰구간을 정한다.
    신뢰구간은 표본통계량 + 오차한계(sample statistic + margin of error)로 구하고, 불확실성은 신뢰수준으로 나타낸다. 




확인하고 넘어가기

Problem1

Twenty-two students were randomly selected from a population of 1000 students. The sampling method was simple random sampling. All of the students were given a standardized English test and a standardized math test. Test results are summarized below.

Student English Math Difference, d (d - d)2
1 95 90 5 16
2 89 85 4 9
3 76 73 3 4
4 92 90 2 1
5 91 90 1 0
6 53 53 0 1
7 67 68 -1 4
8 88 90 -2 9
9 75 78 -3 16
10 85 89 -4 25
11 90 95 -5 36
Student English Math Difference, d (d - d)2
12 85 83 2 1
13 87 83 4 9
14 85 83 2 1
15 85 82 3 4
16 68 65 3 4
17 81 79 2 1
18 84 83 1 0
19 71 60 11 100
20 46 47 -1 4
21 75 77 -2 9
22 80 83 -3 16

Σ(d - d)2 = 270
d = 1

Find the 90% confidence interval for the mean difference between student scores of the math and English tests. Assume that the mean differences are approximately normally distributed.




반응형