본문 바로가기

AP Statistics/하루 10분 AP Stat.

하루에 10분씩 공부하는 AP Statistics - #14 최소제곱 선형회귀(Least Squares Linear Regression)

반응형



하루에 10분씩 공부하는 AP Statistics - #14 최소제곱 선형회귀(Least Squares Linear Regression)

인과관계에서 원인(cause)에 해당하는 것이 독립변수(independent variable), 결과(effect)에 해당하는 것이 종속변수(dependent variable)이다. 최소제곱 선형회귀(Least Squares Linear Regression)는 종속변수 Y의 값을 독립변수 X의 값을 이용해 예측하는 방법이다.

여기서는 독립변수가 한 개인 경우만 살펴보도록 하자. 독립변수가 한 개인 경우를 단순회귀라고 한다(반면에 독립변수가 둘 이상인 경우를 다중회귀라고 한다).
 
주) 다음 내용으로는 이 시간에 다루는 내용을 단순회귀 예제를 통해 살펴볼 것이다. 다음 내용이 다소 어렵다면 예제와 함께 살펴본다면 도움이 될 것이다.

▶ 선형회귀의 선행조건(Prerequisites for Regression)

단순 선형회귀는 다음과 같은 경우에 유용하다.

   - 종속변수 Y가 독립변수 X와 선형관계인 경우
      이를 확인하려면 XY 산점도를 그려 선형관계인지 확인하고, 잔차그림(residual plot)에서
      특별한 경향이 없는지(random patter) 살핀다.
 
    - X의 각 값에 대해 Y의 확률분포가 동일한 표준편차 σ 를 가지는 경우
       이를 위해서는 잔차그림(residual plot)에서 쉽게 확인가능한 잔차(residual)의 변동성이
       X의 모든 값에 걸쳐 비교적 일정해야 한다.

    - X 값에 대해 다음 조건이 만족되는 경우
       · Y 값이 독립 (잔차그림에서 특별한 형태가 없는 것으로 확인)
       · Y 값이 대략 정규분포인 경우 (즉, 대칭(symmetric)인 일봉분포(unimodal))
         히스토그램(histogram)이나 점그림(dotplot)에서 분포의 형태를 알 수 있으며,
         표본 수가 큰 경우 약간의 치우침(skewness)은 허용된다.


▶ 최소제곱 회귀직선(The Least Squares Regression Line)

선형회귀에서는 이변량 자료(bivariate data)에서 관측값을 가장 잘 나타내는 최소제곱 회귀직선(least squares regression line; LSRL)을 찾는다. 모회귀직선은 다음과 같이 나타낸다.

Y = Β0 + Β1X

여기서 Β0 는 상수이고, Β1 회귀계수(regression coefficient), X 독립변수, Y 는 종속변수이다.
관측값의 임의표본(random sample)이 주어지면, 모회귀직선은 다음식으로 추정한다.

ŷ = b0 + b1x

여기서 b0 는 상수이고, b1 은 회귀계수(regression coefficient), x 는 독립변수, ŷ 종속변수의 예측값(predicted value)이다.



▶ 회귀직선의 정의(How to Define a Regression Line)

회귀직선의 b0 와 b1을 구하기 위해서 계산도구(Excel과 같은 소프트웨어나 공학용계산기)를 사용해야 한다. X, Y 값을 프로그램이나 계산기에 입력하면 각 모수(parameter)가 계산된다.

만일, 계산도구를 이용할 수 없는 막막한 상황이라면 다음 식을 이용해 "직접"  b0 와 b1를 구할 수 있다.
 

b1 = Σ [ (xi - x)(yi - y) ] / Σ [ (xi - x)2]

b1 = r * (sy / sx)

b0 = y - b1 * x


여기서 b0 는 회귀식의 상수이고, b1은 회귀계수(regression coefficient), r 은 x, y의 상관계수, xi 는 X의 i번째 관측값, yi 는 Y의 i번째 관측값, x 는 X의 평균, y는 Y의 평균, sx 는 X의 표준편차, sy 는 Y의 표준편차이다.



▶ 회귀직선의 성질(Properties of the Regression Line )

회귀 모수(regression parameters; b0 and b1)는 위와 같이 정의되며, 회귀 직선은 다음과 같은 성질을 갖는다.

   - 회귀직선은 관측값(y) 예측값(ŷ; 회귀식에서 계산된 값)의 오차제곱합을 최소로 한다.
   - 회귀직선은 X값 평균(x)과 Y값 평균(y)을 지난다.
   - 회귀 상수(b0)는 회귀직선의 y-절편과 같다.
   - 회귀 모수(b1)는 독립변수(X)가 1단위 변화할 때, 종속변수(Y)의 평균 변화량 즉, 회귀직선의 기울기와 같다.

최소제곱 회귀직선은 위의 성질을 모두 만족하는 유일한 직선이다.



▶ 결정계수(The Coefficient of Determination)

R2으로 표시되는 결정계수(coefficient of determination)는 회귀분석의 중요한 결과이다. 결정계수는 독립변수로부터 예측되는 종속변수의 분산의 비율을 의미한다.  
 
   - 결정계수는 0과 1사이의 값을 갖는다.
   - R2 =0 이면 독립변수는 종속변수를 전혀 예측할 수 없다는 것을 의미한다.
   - R2 =1 이면 독립변수는 종속변수를 오차없이 예측할 수 있다는 것을 의미한다.
   - 0과 1 사이의 R2 값은 종속변수는 예측가능한 것을 의미한다.
     예를들어 R2 =0.1 이면 Y의 분산의 10%를 X에서 예측 가능하고,
     R2 =0.2 이면 Y의 분산의 20%를 예측 가능하다.

다음은 독립변수가 한 개인 경우 회귀직선모형에서 결정계수를 구하는 식을 나타낸 것이다.


 결정계수(Coefficient of determination)
 독립변수가 한 개인 선형회귀모형의 결정계수(R2)는 다음과 같다.

R2 = { ( 1 / N ) * Σ [ (xi - x) * (yi - y) ] / (σx * σy ) }2

   여기서  N은 모형에 사용된 관측값의 개수, xi 는 x의 i번째 관측값, x 는 x의 평균, yi 는 y의 i번째 관측값,
   y 는 y의 평균, σx 는 x의 표준편차, σy 는 y의 표준편차이다.
 




▶ 표준오차(Standard Error)

회귀직선의 표준오차(standard error; SE)란  회귀식이 과소 또는 과대 예측한 값의 평균을 나타내는 척도이다. 결정계수가 클수록 표준오차는 작아지는데 이것은 보다 정확한 예측이 가능하다는 것을 말한다.


확인하고 넘어가기
Problem1

A researcher uses a regression equation to predict home heating bills (dollar cost), based on home size (square feet). The correlation between predicted bills and home size is 0.70. What is the correct interpretation of this finding?

(A) 70% of the variability in home heating bills can be explained by home size.
(B) 49% of the variability in home heating bills can be explained by home size.
(C) For each added square foot of home size, heating bills increased by 70 cents.
(D) For each added square foot of home size, heating bills increased by 49 cents.
(E) None of the above.

반응형