본문 바로가기

AP Statistics/하루 10분 AP Stat.

하루에 10분씩 공부하는 AP Statistics - #39 표집분포(Sampling Distribution)

반응형

하루에 10분씩 공부하는 AP Statistics - #39 표집분포(Sampling Distribution)


한 모집단에서 크기가 n인 표본을 모두 추출하고, 각 표본의 통계량(평균, 비율, 표준편차 등)을 계산한다고 가정해 보자. 이 때, 이 통계량의 확률분포를 표집분포(sampling distribution)라고 한다.



▶ 표집분포의 변동성(Variability of a Sampling Distribution)

표집분포의 변동성은 분산(Variance)이나 표준편차(standard deviation)으로 나타낸다. 표집분포의 변동성은 세 가지 요인에 영향을 받는다. 
  • N: 모집단의 관측값의 개수
  • n: 표본의 관측값의 개수
  • 임의표본(random sample)을 선택하는 방법

만일 모집단의 크기가 표본의 크기보다 훨씬 크다면, 표집분포는 복원추출이든 비복원추출이든 거의 동일한 표집오차를 갖는다. 반면에 표본 크기가 모집단 크기에 비해 유효한 수준(예를 들면 1/10)인 경우라면, 비복원추출일 때 표집오차가 현저히 작다.



▶ 중심극한정리(Central Limit Theorem)

중심극한정리에 따르면, 표본의 크기가 충분히 크면 어떤 통계량의 표집분포라도 정규분포 또는 정규분포에 가깝게 된다.

충분히 크다는 건 얼마나 크다는 것인가? 어림짐작으로 표본의 크기가 30이상이면 충분히 크다고 할 수 있다. 만일 표집분포의 모양을 알 수 있다면, 표본의 크기가 충분히 크다는 것은 다음 조건 중 하나가 만족되는 경우로 정의할 수 있다.

  • 모집단이 정규 분포인 경우
  • 대칭(symmetric)이고, 이상치(outlier)가 없는 일봉분포(unimodal)이며, 표본크기가 15이내인 표집분포
  • 한 쪽으로 약간 치우쳤지만(skewed), 이상치가 없는 일봉분포이며, 표본크기가 16~40인 표집분포
  • 이상치가 없고, 표본크기가 40보다 큰 표집분포

정규곡선의 정확한 모양은 평균과 표준편차에 의해 결정된다. 따라서 통계량의 평균과 표준편차를 알고 있다면, (표본의 크기가 큰 표본에서 구한) 통계량의 표집분포의 평균과 표준편차를 구할 수 있다.




▶ 평균의 표집분포(Sampling Distribution of the Mean)

크기가 N인 모집단에서 크기가 n인 모든 가능한 표본을 추출해서 각 표본의 평균을 구하는 경우를 생각해 보자. 이런 방법으로 평균의 표집분포를 구할 수 있다.

모집단 평균(μ)은 표집분포의 평균(μx)과 같고, 표집분포의 표준편차(σx)는 모집단의 표준편차(σ), 모집단 크기, 표본 크기에 의해 결정된다. 이 관계식은 다음과 같다.

μx = μ      and      σx = σ * sqrt( 1/n - 1/N )

따라서 다음 두 조건이 만족되면, 평균의 표집분포를 구할 수 있다. 

  • 모집단이 정규분포이거나 표본의 크기가 충분히 큰 경우 
  • 모집단의 표준편차 σ를 아는 경우

주) 모집단의 크기가 충분히 커지면, 1/N은 0 에 가까워진다. 이 때, σx = σ / sqrt(n) 이다.




▶ 비율의 표집분포(Sampling Distribution of the Proportion)

크기가 N인 모집단에서 사건의 발생(성공) 확률이 P이고 사건이 발생하지 않을 확률(실패) 확률이 Q라고 하자. 이 모집단에서 크기가 n인 표본을 모두 추출하고, 각 표본에서 성공확률 p와 실패확률 q를 정하는 경우, 비율의 표집분포를 구할 수 있다.

비율의 표집분포의 평균(μp)은 모집단의 성공확률(P)과 같고, 표집분포의 표준편차(σp)는 모집단 표준편차(σ), 모집단 크기, 표본 크기에 의해 결정된다. 이 관계식은 다음과 같다.

μp = P      and      σp = σ * sqrt( 1/n - 1/N ) = sqrt[ PQ/n - PQ/N ]

여기서 σ = sqrt[ PQ ] 이다.

주) 모집단의 크기가 충분히 크면 PQ/N 은 0 에 가까워진다. 이 때, σp = sqrt( PQ/n ) 이다.




여기서는 통계 문제를 푸는 과정에서 중심극한정리를 어떻게 적용하는지 살펴보도록 하자. 중심극한정리를 통해 정규분포를 사용할 수 있고, 따라서 확률을 계산할 수 있다.


예제1

Assume that a school district has 10,000 6th graders. In this district, the average weight of a 6th grader is 80 pounds, with a standard deviation of 20 pounds. Suppose you draw a random sample of 50 students. What is the probability that the average weight of a sampled student will be less than 75 pounds?



예제2

Find the probability that of the next 120 births, no more than 40% will be boys. Assume equal probabilities for the births of boys and girls. Assume also that the number of births in the population (N) is very large, essentially infinite.





반응형