AP Statistics/하루 10분 AP Stat.
하루에 10분씩 공부하는 AP Statistics - #9 상자그림(boxplots 또는 상자수염도; box and whisker plots)
고강사
2011. 1. 20. 20:06
반응형
하루에 10분씩 공부하는 AP Statistics - #9 상자그림(boxplots 또는 상자수염도; box and whisker plots)
상자그림(boxplot)은 상자수염도(box and whisker plot)라고 하기도 하는데 정량형 자료(quantitative data)의 형태를 나타내는데 사용되는 그래프이다.
▶ 상자그림 (boxplot)
만일 하나 이상의 이상치(outlier)가 있다면 각각 점으로 나타내도록 한다. 위의 상자그림에서 2개의 이상치가 왼쪽 수염 좌측에 있고, 3개의 이상치가 오른쪽 수염 우측에 나타나 있다.
▶ 상자그림의 해석(How to Interpret a Boxplot)
상자그림을 어떻게 해석해야 하는지 알아보자. 중앙값(median)은 상자의 가운데 있는 수직선으로 표시된다. 위의 상자그림에서 중앙값은 약 400이다.
뿐만 아니라, 상자그림은 자료의 분산(또는 산포)의 두 가지 척도를 나타낸다.
- 범위(Range)
모든 자료의 산포를 알기 위해서는 (이상치를 포함해) 가장 작은 값과 가장 큰 값의 차이를 구하면 된다.
위의 상자그림에서 범위는 -700(가장 작은 이상치)에서 1700(가장 큰 이상치)까지 2400임을 알 수 있다.
만일 이상치를 제외한다면 수염의 양 끝점 사이의 거리가 범위(위 상자그림에서 약 1000)위임을 알 수 있다.
- 사분위 범위(Interquartile range; IQR)
자료의 가운데 절반은 사분위 범위에 포함 된다. 상자그림에서 사분위 범위는 상자의 너비(Q3-Q1)로 나타난다.
위의 상자그림에서 사분위 범위는 600(Q3) - 300(Q1) 즉, 약 300 임을 알 수 있다.
마지막으로 상자그림에서 알 수 있는 자료의 형태를 나타낸 것이다.
각 상자그림은 각기 다른 왜도를 나타낸다. 만일 대부분의 관측값이 척도의 낮은 값에 집중되어 있다면 좌경분포(skewed right)이고, 반대라면 우경분포(skewed left)이다. 자료의 분포가 대칭(symmetry)이라면 위 가운데 그림에서 나타난 것과 같이 관측값은 중앙값의 좌우에 고르게 분포한다.
풀어보고 넘어가기
Problem 1
Consider the boxplot below.
상자그림(boxplot)은 상자수염도(box and whisker plot)라고 하기도 하는데 정량형 자료(quantitative data)의 형태를 나타내는데 사용되는 그래프이다.
▶ 상자그림 (boxplot)
상자그림은 자료를 사분위수(quartiles)에 따라 나눈다. 상자그림의 몸은 제1사분위수(Q1)에서 제3사분위수(Q3)까지의 "상자(box)"로 나타낸다.
상자 안에는 제2사분위수(Q2)를 나타내는 세로줄이 그어져 있는데 이것은 바로 자료의 중앙값(median)이다. 상자의 좌, 우에서 뻗어 나와있는 두 개의 수평선은 수염(whisker)이라고 부른다. 왼쪽 수염은 Q1에서 이상치(outlier)가 아닌 자료의 최소값까지 긋고, 오른쪽 수염은 Q3에서 이상치가 아닌 자료의 최대값까지 긋는다.
만일 하나 이상의 이상치(outlier)가 있다면 각각 점으로 나타내도록 한다. 위의 상자그림에서 2개의 이상치가 왼쪽 수염 좌측에 있고, 3개의 이상치가 오른쪽 수염 우측에 나타나 있다.
▶ 상자그림의 해석(How to Interpret a Boxplot)
상자그림을 어떻게 해석해야 하는지 알아보자. 중앙값(median)은 상자의 가운데 있는 수직선으로 표시된다. 위의 상자그림에서 중앙값은 약 400이다.
뿐만 아니라, 상자그림은 자료의 분산(또는 산포)의 두 가지 척도를 나타낸다.
- 범위(Range)
모든 자료의 산포를 알기 위해서는 (이상치를 포함해) 가장 작은 값과 가장 큰 값의 차이를 구하면 된다.
위의 상자그림에서 범위는 -700(가장 작은 이상치)에서 1700(가장 큰 이상치)까지 2400임을 알 수 있다.
만일 이상치를 제외한다면 수염의 양 끝점 사이의 거리가 범위(위 상자그림에서 약 1000)위임을 알 수 있다.
- 사분위 범위(Interquartile range; IQR)
자료의 가운데 절반은 사분위 범위에 포함 된다. 상자그림에서 사분위 범위는 상자의 너비(Q3-Q1)로 나타난다.
위의 상자그림에서 사분위 범위는 600(Q3) - 300(Q1) 즉, 약 300 임을 알 수 있다.
마지막으로 상자그림에서 알 수 있는 자료의 형태를 나타낸 것이다.
각 상자그림은 각기 다른 왜도를 나타낸다. 만일 대부분의 관측값이 척도의 낮은 값에 집중되어 있다면 좌경분포(skewed right)이고, 반대라면 우경분포(skewed left)이다. 자료의 분포가 대칭(symmetry)이라면 위 가운데 그림에서 나타난 것과 같이 관측값은 중앙값의 좌우에 고르게 분포한다.
풀어보고 넘어가기
Problem 1
Consider the boxplot below.
Which of the following statements are true?
I. The distribution is skewed right.
II. The interquartile range is about 8.
III. The median is about 10.
(A) I only
(B) II only
(C) III only
(D) I and III
(E) II and III
반응형