본문 바로가기

AP Statistics/하루 10분 AP Stat.

하루에 10분씩 공부하는 AP Statistics - #3 변동성 척도(measures of variability)

반응형

하루에 10분씩 공부하는 AP Statistics - #3 변동성 척도(measures of variability)

통계학에서 자료의 산포 또는 변동성의 정도를 기술하는데 범위(range), 사분위 범위(IQR; Interquartile range), 분산(variance), 표준편차(standard deviation)를 주로 사용한다.


▶ 범위(Range)

범위란 자료의 최대값과 최소값의 차이를 말한다.

예를 들어 1, 3, 4, 5, 5, 6, 7, 11 의 수가 있다고 할 때 범위는 11 - 1 즉 10이다.


▶ 사분위 범위(IQR; The Interquartile Range)

사분위 범위(IQR)는 자료의 중간 50%에 해당하는 값의 최대값과 최소값의 차이이다.

자료의 사분위 범위를 계산하려면 먼저 자료를 크기 순으로 배열한다. 정렬된 자료의 하위 25%에 해당하는 측정값와 상위 25%에 해당하는 측정값를 제거하고 남아 있는 측정값의 최대값과 최소값의 차이를 구하면 된다.

예를 들어 앞서 살펴본 1, 3, 4, 5, 5, 6, 7, 11 의 수에서 사분위 범위를 구해보자. 먼저 하위 25%, 상위 25%에 해당하는 수를 없애면 4, 5, 5, 6 이 남는다. 따라서 사분위 범위는 6 - 4 = 2 이다.


▶ 분산(Variance)

모집단에서 분산은 각 관측값의 편차(관측값-모집단 평균)의 제곱합을 평균한 것으로 다음 식으로 정의된다.

σ2 = Σ ( Xi - μ )2 / N

여기서 σ2 은 모집단 분산, μ 은 모집단 평균, Xi 는 모집단의 i번째 관측값, N 은 모집단의 관측값의 개수이다.

표본의 분산은 모집단의 분산과 표현 기호와 수식이 다소 다르다.

s2 = Σ ( xi - x )2 / ( n - 1 )

여기서 s2 는 표본 분산, x 는 표본 평균, xi 는 표본의 i번째 관측값, n은 표본의 관측값의 개수이다.
위 식을 사용하면 표본 분산은 실제 모집단 분산의 불편추정량(unbiased estimator)이 된다.
따라서, 알지 못하는 모집단 분산을 추정하고자 할 때는 표본 자료를 대상으로 위 식을 사용한다.


▶ 표준편차(Standard Deviation)

표준편차는 분산의 양의 제곱근이다. 따라서 모집단의 표준편차는 다음 식으로 나타낼 수 있다.

σ = sqrt [ σ2 ] = sqrt [ Σ ( Xi - μ )2 / N ]

여기서 σ 는 모집단 표준편차, σ2 는 모집단 분산, μ 는 모집단 평균, Xi 는 모집단의 i번째 관측값, N 은 모집단의 관측값의 개수이다.

표본의 표준편차는 다음 식으로 나타낸다.

s = sqrt [ s2 ] = sqrt [ Σ ( xi - x )2 / ( n - 1 ) ]

여기서 s 는 표본 표준편차, s2 은 표본 분산, x 는 표본 평균, xi 는 표본의 i번째 관측값, n 은 표본의 관측값의 개수이다.


▶ 단위 변환의 영향(Effect of Changing Units)

단위를 바꾸는 경우(분→시간 또는 센티미터→미터 등) 변동성 척도가 어떻게 영향을 받는지 알아보자.

만일 각 관측값에 일정한 수를 더한다면 각 관측값들 사이의 차이는 변하지 않는다. 따라서 모든 변동성 척도(범위, 사분위 범위, 분산, 표준편차)는 변하지 않는다.

반면에 각 관측값에 일정한 수를 곱한다면 범위, 사분위 범위, 표준편차도 일정한 수를 곱한 효과가 있다. 이 때, 분산은 일정한 수의 제곱을 곱한 효과가 있다.

확인하고 넘어가기

Problem 1
A population consists of four observations: {1, 3, 5, 7}. What is the variance?

(A) 2
(B) 4
(C) 5
(D) 6
(E) None of the above

Solution

----------------------------------------------------------------------------------

Problem 2
A sample consists of four observations: {1, 3, 5, 7}. What is the standard deviation?

(A) 2
(B) 2.58
(C) 6
(D) 6.67
(E) None of the above

Solution



반응형