AP Statistics/하루 10분 AP Stat.

하루에 10분씩 공부하는 AP Statistics - #49 평균 차이(Difference Between Means)

고강사 2011. 5. 31. 18:06
반응형

하루에 10분씩 공부하는 AP Statistics - #49 평균 차이(Difference Between Means)


여기서는 평균 차이에 대한 신뢰구간을 어떻게 구하는지 알아보자.


▶ 추정 조건(Estimation Requirements)

앞으로 다루는 추정방법은 다음 조건이 만족되었을 경우에만 적용가능 하다.

  • 표집방법이 단순임의표집(simple random sampling)인 경우
  • 표본이 서로 독립인 경우
  • 각 모집단이 표본보다 적어도 10배 이상 큰 경우
  • 평균 차이의 표집분포가 정규분포에 가까운 경우

일반적으로 표집분포는 다음 조건 중 하나가 만족되면 근사적으로 정규분포임이 알려져 있다.

  • 모집단이 정규 분포인 경우
  • 대칭(symmetric)이고, 이상치(outlier)가 없는 일봉분포(unimodal)이며, 표본크기가 15이내인 표집분포
  • 한 쪽으로 약간 치우쳤지만(skewed), 이상치가 없는 일봉분포이며, 표본크기가 16~40인 표집분포
  • 이상치가 없고, 표본크기가 40보다 큰 표집분포




▶ 표본 평균 차이의 변동성(The Variability of the Difference Between Sample Means)

신뢰구간을 정하기 위해서 표본 평균 차이의 변동성을 알아야 한다. 즉, 평균 차이의 표집분포의 표준편차 또는 표준오차를 계산할 수 있어야 한다.

  • 모집단 표준편차가 알려진 경우 표집분포의 표준편차는 다음과 같다. 

    σx1-x2 = sqrt [ σ21 / n1 + σ22 / n2 ]

    여기서 σ1 모집단1의 표준편차, σ2 는 모집단2의 표준편차, n1 표본1의 크기, n2 표본2의 크기이다.

  • 두 모집단 중 하나라도 표준편차를 모르는 경우에는 표집분포의 표준편차를 구할 수 없다. 이런 경우에는 표준오차를 사용한다. 표준오차(SE)는 표준편차의 불편추정량(unbiased estimate)이고, 다음 식에 의해 계산한다.

    SEx1-x2 = sqrt [ s21 / n1 + s22 / n2 ]

    여기서 s1 표본1의 표준편차, s2 는 표본2의 표준편차, n1는 표본1의 크기, n2 는 표본2의 크기이다. 

주) 현실적으로 모집단의 표준편차가 알려진 경우는 거의 없다. 따라서, 표준오차가 표준편차보다 더 자주 사용된다.

참고

일부 책에서는 또 다른 표준편차와 표준오차를 구하는 식을 소개하기도 한다.
이 식들은 아래 언급한 특별한 조건에서만 사용할 수 있다.

  • 표준편차
    이 식은 모집단 표준편차가 알려져 있고 서로 같은 경우에 사용한다.
    σx1 - x2 = σd = σ * sqrt[ (1 / n2) + (1 / n2)]       where σ = σ1 = σ2

  • 합동 표준오차(Pooled standard error)
    이 식은 모집단의 표준편차를 모르지만, 서로 같다고 예상되는 경우에 사용한다.
    이 경우 표본의 크기 n1과 n2는 작아야 한다(30이하).
    SEpooled = sqrt{ [ (n1 -1) * s12) + (n2 -1) * s22) ] / ((n1 + n2 -1) }       where σ1 = σ2

주의할 점은 이 두 식은 위에 언급한 특정한 조건에서만 사용해야 한다는 것이다.





▶ 평균 차이에 대한 신뢰구간 설정(How to Find the Confidence Interval for a Mean)

앞서 신뢰구간을 정하는 법을 살펴보았다. 다시 한 번 요약하면 아래와 같다.

  • 표본 통계량을 구한다.
    모집단 평균 차이를 추정하기 위해 표본 평균 차이를 사용한다. 

  • 신뢰수준을 정한다.
    신뢰수준은 표집방법의 불확실성을 나타낸다. 보통 90%, 95%, 99% 신뢰수준을 많이 사용하고, 다른 신뢰수준도 사용할 수 있다.

  • 오차한계를 구한다.
    앞서 임계값과 표준편차를 이용해 오차한계를 계산하는 법을 살펴보았다.

  • 신뢰구간을 정한다.
    신뢰구간은 표본통계량 + 오차한계(sample statistic + margin of error)로 구하고, 불확실성은 신뢰수준으로 나타낸다. 

  • 표본의 크기가 크면 t 점수나 z 점수를 사용해 임계값을 구한다. z 점수의 경우 자유도를 계산할 필요가 없어 좀 더 용이하다. 표본의 크기가 작으면(40이하) 임계값으로 t 점수를 사용한다.

    t 점수를 사용하는 경우에는 다음과 같이 자유도(degrees of freedom)를 계산해야 한다.

    • 다음은 t 점수를 두 평균 차이 분석을 위해 사용할 때 적용하는 식이다.

      DF = (s12/n1 + s22/n2)2 / { [ (s12 / n1)2 / (n1 - 1) ] + [ (s22 / n2)2 / (n2 - 1) ] }

    • 만일 합동 표준오차를 사용한다면 (위의 내용 참고), DF = n1 + n2 - 2.

    확인문제에서 z 점수와 t 점수를 임계값으로 사용하는 경우를 살펴보도록 하자.

  • 신뢰구간을 정한다.
    신뢰구간은 표본통계량 + 오차한계(sample statistic + margin of error)로 구하고, 불확실성은 신뢰수준으로 나타낸다. 




확인하고 넘어가기

Problem 1: 표본의 크기가 작은 경우

Suppose that simple random samples of college freshman are selected from two universities - 15 students from school A and 20 students from school B. On a standardized test, the sample from school A has an average score of 1000 with a standard deviation of 100. The sample from school B has an average score of 950 with a standard deviation of 90.

What is the 90% confidence interval for the difference in test scores at the two schools, assuming that test scores came from normal distributions in both schools? (Hint: Since the sample sizes are small, use a t score as the critical value.)

(A) 50 + 1.70
(B) 50 + 28.49
(C) 50 + 32.74
(D) 50 + 55.66
(E) None of the above





Problem 2: 표본의 크기가 큰 경우

The local baseball team conducts a study to find the amount spent on refreshments at the ball park. Over the course of the season they gather simple random samples of 50 men and 100 women. For men, the average expenditure was $20, with a standard deviation of $3. For women, it was $15, with a standard deviation of $2.

What is the 99% confidence interval for the spending difference between men and women? Assume that the two populations are independent and normally distributed.

(A) $5 + $0.47
(B) $5 + $1.21
(C) $5 + $2.58
(D) $5 + $5.00
(E) None of the above




반응형