반응형
하루에 10분씩 공부하는 AP Statistics - #16 잔차, 이상치 및 영향점(Residuals, Outliers, and Influential Points)
선형회귀 모형이 항상 자료에 적합한 것은 아니다. 이 때, 잔차(residual), 이상치(outlier), 영향점(influential point)을 살펴봄으로써 모형의 적합성을 평가할 수 있다.
▶ 잔차(Residuals)
종속변수(y)의 관측값과 예측값(ŷ)의 차이를 잔차(residual; e)라고 한다. 각 관측점은 하나의 잔차를 갖는다.
잔차 = 관측값 - 예측값
e = y - ŷ
e = y - ŷ
잔차의 합 및 평균은 모두 0 이다. 즉, Σ e = 0 이고, e = 0.
▶잔차그림(Residual Plots)
▶잔차그림(Residual Plots)
잔차그림(residual plot)은 독립변수를 x축, 잔차를 y축에 나타낸 그래프이다. 만일 잔차그림에 나타난 점들이 가로축 주변에 무작위로 퍼져있으면, 자료에 대한 선형회귀모형이 적합한 것이다. 만일 잔차그림에 나타난 점들이 어떤 형태를 이루고 있다면 비선형모형(non-linear model)이 더 적합하다.
아래 왼쪽 표에는 이전 예제에서 구한 회귀결과가 요약되어 있고, 오른쪽 그래프는 이를 이용해 그린 잔차그림이다. 잔차그림에서 비임의형태(non-random pattern)임을 알 수 있다. 즉, X축의 낮은 값은 음의 잔차를 갖고 X축의 큰 값은 양의 잔차를 갖는다. 이것은 비선형모형이 자료에 더 적합하다는 것을 나타낸다. 또는 자료를 “변환(transform)”해서 선형모형을 적용할 수도 있다. 선형 변환은 다음 주제로 다루기로 하자.
아래는 잔차그림의 세 가지 주요한 형태를 나타낸 것이다. 첫 번째는 무작위형태(random pattern)로 선형 모형이 적합하다는 것을 나타낸다. 다른 두 그림은 비임의형태(non-random pattern) 중 U-형태(U-shaped)와 뒤집힌 U-형태(inverted U-shaped)이며, 이 경우 비선형모형이 더 적합하다는 것을 의미한다.
Random pattern Non-random pattern Non-random pattern
U-shaped curve Inverted U-shaped curve
▶ 이상치(Outliers)
자료 중에 전체 형태에서 동떨어져서 큰 잔차를 갖는 관측값을 이상치(outlier)라 한다.
이상치는 자료에 대한 회귀식에 영향을 미치는데, 이것은 아래 산점도에 나타나 있다. 이상치가 없는 경우의 결정계수(coefficient of determination)가 이상치가 있는 경우보다 더 크다.
Without Outlier With Outlier
Regression equation: ŷ = 104.78 - 4.10x Regression equation: ŷ = 97.51 - 3.32x
Coefficient of determination: R2 = 0.94 Coefficient of determination: R2 = 0.55
▶ 영향점(Influential Points)
Without Outlier With Outlier
Regression equation: ŷ = 104.78 - 4.10x Regression equation: ŷ = 97.51 - 3.32x
Coefficient of determination: R2 = 0.94 Coefficient of determination: R2 = 0.55
▶ 영향점(Influential Points)
영향점은 회귀직선의 기울기 변화에 큰 효과를 미치는 점을 말한다.
아래 그래프는 영향점이 있는 자료와 영향점이 없는 자료에 대해 회귀통계를 비교한 것이다. 오른쪽 그래프는 X축의 오른쪽 끝(x=24)에 하나의 영향점이 있다. 단 하나의 영향점으로 인해 회귀직선의 기울기가 -2.5에서 -1.6으로 크게 변했다.
이 영향점은 결정계수의 값을 감소시키지 않는다는 점에서 앞서 말한 이상치와는 다르다. 아래 예에서는 실제로 영향점이 있는 경우에 결정계수가 더 크게 나타난다.
Without Influential Point With Influential Point
Regression equation: ŷ = 92.54 - 2.5x Regression equation: ŷ = 87.59 - 1.6x
Slope: b0 = -2.5 Slope: b0 = -1.6
Coefficient of determination: R2 = 0.46 Coefficient of determination: R2 = 0.52
확인하고 넘어가기
Problem 1
In the context of regression analysis, which of the following statements are true?
I. When the sum of the residuals is greater than zero, the model is nonlinear.
II. Outliers reduce the coefficient of determination.
III. Influential points reduce the correlation coefficient.
II. Outliers reduce the coefficient of determination.
III. Influential points reduce the correlation coefficient.
(A) I only
(B) II only
(C) III only
(D) I and II only
(E) I, II, and III
(B) II only
(C) III only
(D) I and II only
(E) I, II, and III
반응형