반응형
하루에 10분씩 공부하는 AP Statistics - #37 t분포(Student's t distribution)
중심극한정리(central limit theorem)에 따라 통계량(표본평균 등)의 표집분포(sampling distribution)는 표본 크기가 충분히 큰 경우에 정규분포(normal distribution)를 따른다. 따라서, 모집단(population)의 표준편차를 알고 있다면, z-점수(z-score)를 계산할 수 있고 확률계산을 정규분포를 이용할 수 있다.
하지만, 표본의 크기가 작거나 모집단의 표준편차를 알 수 없는 경우가 있다. 이런 경우에 해당한다면 t-점수(t-score)로도 알려진 t 통계량(t statistics)를 사용해야 한다. t-통계량은 다음과 같이 계산한다.
t = [ x - μ ] / [ s / sqrt( n ) ]
여기서 x 는 표본 평균, μ 모집단 평균, s 표본 표준편차, n 표본크기이다.
t 통계량의 분포를 t 분포(t distribution) 또는 스튜던트 t 분포(student t distribution)라고 한다.
▶ 자유도(Degrees of Freedom)
실제로는 여러 다양한 t 분포가 있다. t 분포의 특정한 형태는 자유도(degrees of freedom)에 따라 결정된다. 자유도란 자료에서 독립 관측값의 개수를 말한다.
하나의 표본에서 평균 점수나 평균 비율을 추정할 때, 독립 관측값의 개수는 표본의 크기에서 1을 뺀 것과 같다. 따라서, 표본의 크기가 8인 표본의 t 통계량의 분포는 8-1=7 의 자유도를 갖는 t 분포이다. 또, 자유도가 15인 t 분포는 표본의 크기가 16인 경우에 사용한다.
다른 곳에서는 자유도를 다르게 계산할 수도 있는데, 이러한 경우는 나중에 살펴보도록 하자.
▶ t 분포의 성질(Properties of the t Distribution)
t 분포는 다음과 같은 성질을 갖는다.
- 분포의 평균은 0 이다.
- 분산은 v / ( v - 2 ) 이다. (v 자유도, v > 2)
- 분산은 항상 1보다 크다. 자유도가 커지면 분산은 1에 가까워진다.
자유도가 무한대인 경우 t 분포는 표준정규분포(standard normal distribution)와 같다.
▶ t 분포를 사용하는 경우(When to Use the t Distribution)
t 분포는 종모양 분포(bell-shaped distribution; 즉, 정규분포에 가까운 분포)를 가지는 통계량에 사용할 수 있다. 중심극한정리에 따르면 다음 조건 중 하나가 만족되면 통계량의 표집분포는 정규분포이거나 거의 정규분포에 가깝다.
- 모집단이 정규 분포인 경우
- 대칭(symmetric)이고, 이상치(outlier)가 없는 일봉분포(unimodal)이며, 표본크기가 15이내인 표집분포
- 한 쪽으로 약간 치우쳤지만(skewed), 이상치가 없는 일봉분포이며, 표본크기가 16~40인 표집분포
- 이상치가 없고, 표본크기가 40보다 큰 표집분포
▶ t 분포와 확률 (Probability and the Student t Distribution)
모집단에서 추출된 크기 n 인 표본이 정규분포(또는 정규분포에 가까운)를 따를 때, 다음 식을 이용해 표본평균을 t-점수(t-score)로 변환할 수 있다.
t = [ x - μ ] / [ s / sqrt( n ) ]
여기서 x 표본평균, μ 모집단평균, s 표본 표준편차, n 은 표본의 크기이고, 자유도는 n-1 이다.
이렇게 변환된 t 점수는 특정한 누적확률을 갖는다. 이 누적확률은 크기가 n인 표본의 평균이 x보다 작거나 같을 확률을 나타낸다.
특정 t 점수에 해당하는 확률은 t 분포표 또는 전자계산기를 이용해 구할 수 있다.
▶ t 점수 (t Scores)
tα 는 -∞에서 t까지의 누적확률이 (1 - α)인 t 점수를 나타낸다. 예를 들어 -∞에서 t까지의 누적확률이 0.95인 t 점수는 α가 (1 - 0.95) 즉, 0.05 인 경우이므로, t0.05로 나타낸다.
물론, t0.05 는 자유도에 따라 다르다. 예로 자유도가 2인 경우의 t0.05 는 2.92 이지만, 자유도가 20인 경우의 t0.05 는 1.725 이다.
주) t분포는 평균 0 을 중심으로 대칭이므로 다음 성질을 만족한다.
tα = -t1 - alpha And t1 - alpha = -tα
즉, t0.05 = 2.92 이면 t0.95 = -2.92 이다.확인하고 넘어가기
Problem 1
Acme Corporation manufactures light bulbs. The CEO claims that an average Acme light bulb lasts 300 days. A researcher randomly selects 15 bulbs for testing. The sampled bulbs last an average of 290 days, with a standard deviation of 50 days. If the CEO's claim were true, what is the probability that 15 randomly selected bulbs would have an average life of no more than 290 days?
주) 이 문제를 푸는 방법은 2가지가 있다. Solution A는 문제에서 주어진 정보를 이용해 t 점수를 계산하고, t 분포표를 이용해 확률을 계산하는 방법이다. Solution B는 계산기에서 t 분포의 확률을 구하는 기능을 이용해 직접 구하는 방법이다. 이 경우 t 점수는 계산기 내부에서("behind the scenes") 구해지고, 결과는 확률만 표시된다. 두 경우 모두 같은 답을 구한다.
Problem 2
Suppose scores on an IQ test are normally distributed, with a mean of 100. Suppose 20 people are randomly selected and tested. The standard deviation in the sample group is 15. What is the probability that the average test score in the sample group will be at most 110?
반응형