반응형
하루에 10분씩 공부하는 AP Statistics - #5 자료의 형태(patterns in data)
자료를 시각적으로 나타내는 것은 자료의 형태를 쉽게 알아 볼 수 있도록 도와준다. 자료의 형태는 중심(center), 산포(spread), 모양(shape)과 특이점(unusual feature)을 통해 기술한다.
▶ 중심(center)
시각적으로 나타낸 분포의 중심(center)은 자료의 분포에서 중앙값(median)이 위치한 곳을 말한다. 중심은 자료의 분포에서 양 끝에서 절반정도 되는 지점이다. 오른쪽 그래프에서 각 열의 높이는 관측값의 빈도를 나타내는데, 관측값은 4를 중심으로 모여 있다.
▶ 산포(spread)
산포(spread) 자료의 변동성을 말한다. 만일 관측값이 넓은 범위의 값을 나타낸다면 산포는 크다. 만일 관측값이 특정한 값 주위에 모여 있다면 산포는 작다.
위의 그림에서 왼쪽은 자료의 범위가 3부터 7까지 주로 퍼져 있는 반면에 오른쪽은 1부터 9까지 퍼져 있다. 따라서, 오른쪽 자료가 변동성이 더 크고 산포도 더 크다.
▶ 모양(Shape)
분포의 모양은 다음 특성을 통해 나타낼 수 있다.
- 대칭(symmetry)
자료를 그래프로 나타내었을 때 중심을 기준으로 양쪽이 서로 거울상(mirror image)일 때, 대칭이라고 한다.
- 첨점의 개수(number of peaks)
분포는 몇 개 또는 다수의 첨점(peak)을 가진다. 분포의 첨점이 하나이면 단봉(unimodal; mode가 하나), 첨점이 둘이면 이봉(bimodal; mode가 둘)이라고 한다. 만일 어떤 자료가 대칭인 단봉 분포라면 종모양(bell-shaped)이라고 한다.
- 왜도(skewness)
자료를 그래프로 나타내었을 때, 한 쪽이 반대쪽보다 관측값의 개수가 많은 경우가 있다. 대부분의 관측값이 왼쪽(작은 값)에 분포한 경우를 좌경분포(skewed right; mean > median > mode), 대부분의 관측값이 오른쪽(큰 값)에 분포한 경우를 우경분포(skewed left; mean < median < mode)이라고 한다.
- 균등(uniform)
만일 관측값이 전범위에 걸쳐 동등하게 분포되어 있다면, 균등분포(uniform distribution)라 한다. 균등분포는 첨점을 가지지 않는다.
다음 그래프를 통해 각 모양을 살펴보자.
▶ 특이점(Unusual Features)
▶ 모양(Shape)
분포의 모양은 다음 특성을 통해 나타낼 수 있다.
- 대칭(symmetry)
자료를 그래프로 나타내었을 때 중심을 기준으로 양쪽이 서로 거울상(mirror image)일 때, 대칭이라고 한다.
- 첨점의 개수(number of peaks)
분포는 몇 개 또는 다수의 첨점(peak)을 가진다. 분포의 첨점이 하나이면 단봉(unimodal; mode가 하나), 첨점이 둘이면 이봉(bimodal; mode가 둘)이라고 한다. 만일 어떤 자료가 대칭인 단봉 분포라면 종모양(bell-shaped)이라고 한다.
- 왜도(skewness)
자료를 그래프로 나타내었을 때, 한 쪽이 반대쪽보다 관측값의 개수가 많은 경우가 있다. 대부분의 관측값이 왼쪽(작은 값)에 분포한 경우를 좌경분포(skewed right; mean > median > mode), 대부분의 관측값이 오른쪽(큰 값)에 분포한 경우를 우경분포(skewed left; mean < median < mode)이라고 한다.
- 균등(uniform)
만일 관측값이 전범위에 걸쳐 동등하게 분포되어 있다면, 균등분포(uniform distribution)라 한다. 균등분포는 첨점을 가지지 않는다.
다음 그래프를 통해 각 모양을 살펴보자.
▶ 특이점(Unusual Features)
자료에서 나타나는 대표적인 두 가지 특이점은 갭(gap)과 이상치(outlier) 이다.
- 갭(gap)
갭은 분포에서 관측값이 없는 범위를 말한다. 아래 왼쪽 그림은 갭(분포 가운데에 관측값이 없는 부분)이 있다.
- 이상치(outlier)
분포에서 간혹 다른 관측값들과 동떨어진 극단적인 값을 갖는 경우가 있다. 이러한 점을 이상치(outlier)라 한다. 아래 오른쪽 그림은 한 개의 이상치를 가진 분포를 나타낸 것이다. 이 한 점(오른쪽 끝점)을 제외하면 모든 관측값은 0과 4사이에 분포한다. 주먹구구식(rule of thumb) 이상치 판정법은 사분위 범위의 1.5배 만큼 제1사분위수(Q1)보다 작거나 제3사분위수(Q3)보다 큰 수는 이상치로 간주한다.
반응형
'AP Statistics > 하루 10분 AP Stat.' 카테고리의 다른 글
하루에 10분씩 공부하는 AP Statistics - #7 막대도표와 히스토그램(Bar charts and Histograms) (0) | 2011.01.14 |
---|---|
하루에 10분씩 공부하는 AP Statistics - #6 점그림(dotpolots) (0) | 2011.01.14 |
하루에 10분씩 공부하는 AP Statistics - #4 위치 척도(measures of position) (1) | 2011.01.07 |
하루에 10분씩 공부하는 AP Statistics - #3 변동성 척도(measures of variability) (0) | 2011.01.07 |