본문 바로가기

AP Statistics/하루 10분 AP Stat.

하루에 10분씩 공부하는 AP Statistics - #12 분포의 비교(Comparing distributions)

반응형


하루에 10분씩 공부하는 AP Statistics - #12 분포의 비교(Comparing distributions)

점그림(dotplots), 상자그림(boxplots), 줄기그림(stemplots), 막대그림표(bar charts) 등의 시각적 표시방법은 둘 또는 그 이상의 모집단에서 얻어진 자료를 비교하는데 효과적인 도구이다.


▶ 분포의 비교 방법(How to Compare Distributions)

둘 또는 그 이상의 자료를 비교할 때 다음 4가지 특징을 살핀다.

   - 중심(Center)
      분포의 중심은 관측값을 절반으로 나누어 주는 점이다.

   - 산포(Spread)
      산포는 자료의 변동성(variability)를 말한다.
      관측값이 넓은 범위에 퍼져 있다면 산포는 크고, 관측값이 한 값 주변에 몰려있다면 산포는 작다.

   - 모양(Shape)
      분포의 모양은 대칭(symmetry), 왜도(skewness), 첨점의 수 등으로 기술한다.

   - 특이점(Unusual features)
      특이점은 갭(gap; 분포에서 관측값이 없는 부분)과 이상치(outlier)를 말한다.

이제부터는 다양한 그래프에서 중심과, 산포, 모양 및 이상점을 판별하는 예를 살펴보자. (AP Statistics Exam에서 문제로 많이 출제되는 부분임)
 

▶ 점그림(Dotplots)

점그림에서 분포를 비교할 때는 오른쪽 그림과 같이 한 점그림을 다른 점그림 위에 놓고 비교한다.
이 때, 축은 같은 단위를 사용해야 한다.

사용자 삽입 이미지

오른쪽의 점그림은 한 도시의 두 구역에서 가정당 애완동물 수를 조사한 것이다. A 구역에서는 가정당 애완동물 수가 약간 적다. A 구역에서는 대부분의 가정이 애완동물이 없거나 1마리를 갖고 있다. 하지만 B 구역에서는 대부분의 가정이 2마리 이상의 애완동물을 소유하고 있다.
A 구역의 경우 좌경분포(skewed right)를 이루고 있고, B 구역의 경우 대략 종모양(bell-shaped)을 이루고 있다.
A 구역은 가정당 애완동물 수가 0~4까지 있고, B 구역은 0~6까지 있다. 따라서 B 구역의 분포가 더 변동성이 크다. 두 분포 모두 이상치나 갭은 없다.



▶ 맞댄 줄기그림(Back-to-Back Stemplots)

Boys
      Girls
7
1
1 4 6
4 5 8
1 2 2 2 8 9
3 4 7 9
2 5 8
1 3
0
1
2
3
4
5
6
7

1
2 6 8
3 4 4 6 6 8 9
4 3 6
4

맞댄 줄기그림(back-to-back stemplots)은 두 모집단의 자료를 비교하기 위한 방법이다. 맞댄 줄기그림의 중심은 줄기열이고 양 쪽에 세로줄이 있다. 한 모집단의 자료는 줄기에서 오른쪽으로 뻗어나가는 잎으로 나타내고 다른 모집단의 자료는 왼쪽으로 뻗어나가는 잎으로 나타낸다.

오른쪽의 맞댄 줄기그림은 무작위로 추출한 십대 소년, 소녀들의 용돈(in dollars)을 나타낸 것이다. 소년들은 중앙값이 $42이고, 소녀들은 중앙값이 $36이므로, 소년들이 소녀들보다 더 많은 용돈을 쓰는 것을 알 수 있다.
두 분포 모두 대략 종모양(bell-shaped)이지만 소년들의 경우 분산이 더 크다. 두 분포 모두 갭이나 이상치는 없다.



▶ 평행 상자그림(Parallel Boxplots)

사용자 삽입 이미지
평행 상자그림(변을 맞댄 상자그림)은 한 그래프 위에 두 분포의 자료를 같은 단위의 척도를 사용하여 함께 나타낸 것이다.

오른쪽 상자그림은 의료연구 결과를 나타낸 것이다. 처치그룹(treatment group)은 감기 증상을 치료하기 위해 실험약을 받았고, 제어그룹(control group)은 위약(placebo)을 받았다. 상자그림은 각 그룹이 감기증상을 나타낸 날 수를 나타낸다.

두 분포 모두 갭이나 이상치와 같은 특이점은 없다. 두 분포 모두 좌경분포(skewed right)의 형태를 갖고 있는데 처치그룹의 경우 보다 명확한 좌경분포 형태를 나타내고 있다.
처치그룹의 경우 감기증상을 나타낸 날이 1~14일(범위=13일)인 반면, 제어그룹은 3~17일(범위=14일)로 처치그룹의 산포가 약간 더 작다.
처치그룹의 회복일의 중앙값은 약 5일이고, 제어그룹의 회복일의 중앙값은 약 9일이다. 이것은 실험약이 환자 치료에 효과가 있다는 것을 나타낸다.



▶ 이중 막대그림표(Double Bar Charts)

사용자 삽입 이미지
이중 막대그림표는 각 범주에 해당하는 정보를 하나가 아닌 두 개를 나타낸다는 점에서 일반 막대그림표와 다르다. 보통 다른 색을 이용해 각 정보를 나타내고, 색상으로 구별할 수 있도록 한다.

오른쪽 이중 막대그림표는 성별에 따라 차종별 만족도를 나타낸 것이다. 파란색 막대는 남성을 나타내고, 보라색 막대는 여성을 나타낸다.

남, 여 그룹 모두 미국산 차량보다 일본산 차량을 선호한다. 혼다가 가장 높은 점수를 받았고 포드가 가장 낮은 점수를 받았다. 남, 여 모두 선호하는 차종 순서가 동일하게 나타났다.
전체적으로 남성은 여성에 비해 낮은 점수를 주는 것으로 볼 수 있다.



확인하고 넘어가기

College
High school
7
3 6 6
1 2 3 4
6 8 8 9
2 8


3
0
1
2
3
4
5
6
7

0 0 3 5
1 2 4 4 6
1 8 9
0 1


Problem 1

The back-to-back stemplot on the right shows the number of books read in a year by a random sample of college and high school students. Which of the following statements are true?

I. Seven college students did not read any books.
II. The college median is equal to the high school median.
III. The mean is greater than the median in both groups.

(A) I only
(B) II only
(C) III only
(D) I and II
(E) II and III


Solution


 

반응형