하루에 10분씩 공부하는 AP Statistics - #13 상관과 선형성(Correlation and Linearity)
상관계수(correlation coefficients)는 두 변수 간의 연관성의 세기를 나타내는 척도이다. 가장 널리 쓰이는 상관계수는 피어슨 곱적률 상관계수(Pearson product-moment correlation coefficient)로 두 변수 간의 선형 연관성의 세기를 구한다.
앞으로 편의상 상관계수라고 하면 피어슨 곱적률 상관계수(Pearson product-moment correlation)를 말한다.
▶ 상관계수 계산법(How to Calculate a Correlation Coefficient)
표본 상관계수(sample correlation coefficient; r)를 구하는 식은 다음과 같다.
표본 상관계수(Sample correlation coefficient; r )
두 변수 간의 상관 계수 r 은 다음 식으로 구한다.
여기서, n은 표본의 관측값의 개수, xi 는 x의 i번째 관측값, x는 x의 평균, yi 는 y의 i번째 관측값, y는 y의 평균,
sx 는 x의 표본 표준편차, sy 는 y의 표본 표준편차 이다.
모집단 상관계수(population correlation coefficient; ρ)를 구하는 식은 다음과 같다.
모집단 상관계수(Population correlation coefficient; ρ)
두 변수 간의 상관 계수 ρ 은 다음 식으로 구한다.
여기서, N은 모집단의 관측값의 개수, Xi 는 X의 i번째 관측값, μX는 X의 평균, Yi 는 Y의 i번째 관측값,
μY는 Y의 평균, σx 는 X의 표준편차, σy 는 Y의 표준편차 이다.
많은 소프트웨어(예; 엑셀)와 대부분의 공학용 계산기에서 상관계수를 쉽게 구할 수 있는 기능을 제공하고 있으므로 상관계수를 직접 손으로 계산해서 구할 필요는 없다.
주) 때때로, 소프트웨어나 계산기에서 표본 상관계수를 계산하는지, 모집단 상관계수를 구하는지 불분명한 경우가 있다. 예를 들어 일반 수준의 마이크로소프트 엑셀 사용자라면 엑셀에서 Pearson() 함수가 모집단 상관계수(ρ)를 구하는 것임을 잘 알지 못한다.
▶ 상관계수의 해석(How to Interpret a Correlation Coefficient)
상관계수의 부호와 절대값은 각각 두 변수 간의 관계의 방향과 세기를 나타낸다.
- 상관계수의 값은 -1에서 1 사이의 값을 갖는다.
- 상관계수의 절대값이 클수록 더 강한 선형 관계를 갖는다.
- 가장 강한 선형관계는 상관계수가 1 또는 -1 일 때이다.
- 가장 약한 선형관계는 상관계수가 0 일 때이다.
- 양의 상관계수는 한 변수의 값이 커질 때, 다른 변수의 값도 커지는 관계를 나타낸다.
- 음의 상관계수는 한 변수의 값이 커질 때, 다른 변수의 값은 작아지는 관계를 나타낸다.
피어슨 곱적률 상관계수는 두 변수의 선형관계만을 고려한다는 점에 주의하자. 따라서 상관계수가 0 인 것은 두 변수 사이에 아무런 관계가 없다는 것을 의미하는 것은 아니라 선형관계가 없다는 것 즉, 0의 선형관계를 나타내는 것이다(두 변수간에 0의 선형관계를 갖더라도 강한 곡선관계를 가질 수 있다).
▶ 산점도와 상관계수(Scatterplots and Correlation Coefficients)
아래의 산점도는 자료의 형태와 상관계수의 관계를 나타낸 것이다.
Maximum positive correlation Strong positive correlation Zero correlation
(r = 1.0) (r = 0.80) (r = 0)
Minimum negative correlation Moderate negative correlation Strong correlation with outlier
(r = -1.0) (r = -0.43) (r = 0.71)
산점도로부터 다음을 알 수 있다.
- 점들을 연결한 직선의 기울기가 양이면, 양의 상관관계를 갖는다.
- 점들을 연결한 직선의 기울기가 음이면, 음의 상관관계를 갖는다.
- 가장 강한 상관관계(r = 1.0 또는 r = -1.0 )는 점들이 완전히 직선과 일치할 때이다.
- 점들이 흩어질수록 상관관계는 약해진다.
- 자료가 무작위 형태이면, 상관관계는 0 이다.
- 상관관계는 이상치(outlier)에 의해 영향을 받는다.
첫번째 산점도와 마지막 산점도를 비교해보면 하나의 이상치로 인해 상관관계가 크게 감소함을 알 수 있다.
(r=1.00 → 0.71).
확인하고 넘어가기
Problem 1
A national consumer magazine reported the following correlations.
- The correlation between car weight and car reliability is -0.30.
- The correlation between car weight and annual maintenance cost is 0.20.
Which of the following statements are true?
I. Heavier cars tend to be less reliable.
II. Heavier cars tend to cost more to maintain.
III. Car weight is related more strongly to reliability than to maintenance cost.
(A) I only
(B) II only
(C) III only
(D) I and II only
(E) I, II, and III