본문 바로가기

AP Statistics/하루 10분 AP Stat.

하루에 10분씩 공부하는 AP Statistics - #15 단순회귀 예제(A Simple Regression Example)

반응형


하루에 10분씩 공부하는 AP Statistics - #15 단순회귀 예제(A Simple Regression Example)

여기서는 가상 자료를 이용해 어떻게 회귀분석을 적용하고 결과를 해석하는지 살펴보자.

주 : 보통 회귀분석은 소프트웨어나 공학용 계산기를 이용한다. 하지만, 여기서는 수식에 대한 이해를 돕기 위해 "직접" 계산하는 방법으로 회귀분석을 하도록 한다.


▶ 문제정의(Problem Statement)

통계학과에서는 다음 3가지 사항을 확인하고자 작년에 5명의 학생을 임의로 선택하여 통계과목을 수강하기 이전에 수학적성검사를 실시하였다.

   - 수학적성검사 점수로 통계성적을 가장 잘 예측할 수 있는 선형회귀식은 무엇인가?
   - 만일 학생이 수학적성검사 점수가 80점이라면 통계성적이 얼마일 것으로 기대되는가?
   - 회귀식이 자료와 얼마나 잘 들어맞는가(적합)?



▶ 회귀식 찾기(How to Find the Regression Equation)

아래 표에서 xi 열은 적성검사 점수이고, yi 열은 통계성적이다. 맨 아래 2열은 회귀분석에서 사용할 합계와 평균을 나타낸 것이다.

Student xi yi (xi - x) (yi - y) (xi - x)2 (yi - y)2 (xi - x)(yi - y)
1 95 85 17 8 289 64 136
2 85 95 7 18 49 324 126
3 80 70 2 -7 4 49 -14
4 70 65 -8 -12 64 144 96
5 60 70 -18 -7 324 49 126
Sum 390 385     730 630 470
Mean 78 77

회귀식은 직선의 방정식(ŷ = b0 + b1x) 형태이다. 회귀분석을 위해서는 b0 와 b1을 구해야 하는데, 계산식은 다음과 같다.

b1 = Σ [ (xi - x)(yi - y) ] / Σ [ (xi - x)2]
b1 = 470/730 = 0.644
  b0 = y - b1 * x
b0 = 77 - (0.644)(78) = 26.768

따라서 회귀식은 ŷ = 26.768 + 0.644x 이다.



▶ 회귀식의 적용(How to Use the Regression Equation)

회귀식을 구하고 나면 적용하는 것은 쉽다. 독립변수(x) 값을 선택해서 계산하면 종속변수(ŷ)의 추정값을 구할 수 있다.

이 예제에서 독립변수는 학생의 적성검사점수이고, 종속변수는 학생의 통계성적이다. 만일 학생의 적성검사 점수가 80점이라면 추정되는 통계성적은  78.288 이다.

ŷ = 26.768 + 0.644x = 26.768 + 0.644 * 80 = 26.768 + 51.52 = 78.288

주의) 회귀식에 독립변수 값을 대입할 때, 회귀식을 구할 때 사용한 독립변수 값의 범위를 벗어나는 값을 대입해서는 안된다. 이것을 외삽법(extrapolation)이라고 하는데, 이 경우 잘못된 추정값을 구하게 된다.

이 예제에서 회귀식을 구할 때 사용한 60~95점의 범위의 적성검사 점수를 사용했다. 따라서 통계성적을 예측할 때에는 해당 범위 안의 값을 사용해야 한다. 범위 밖의 적성검사 점수(60점 미만 또는 95점 초과)를 이용할 경우 문제가 발생할 수 있다.



▶ 결정계수의 계산(How to Find the Coefficient of Determination)

회귀식을 사용할 때에는 주어진 자료에 대해 이 회귀식이 얼마나 잘 들어맞는지 즉, 적합한지 밝혀야 한다. 이 적합성을 평가하는 방법 중 하나는 결정계수(coefficient of determinatioin)를 확인하는 것이다. 결정계수는 다음식에 의해 구할 수 있다.

R2 = { ( 1 / N ) * Σ [ (xi - x) * (yi - y) ] / (σx * σy ) }2

여기서 N은 모형에 사용된 관측값의 수, xi 는 x의 i번째 관측값, x 는 x의 평균, yi 는 y의 i번째 관측값, y는 y의 평균, σx는 x의 표준편차, σy는 y의 표준편차이다. 여기서 소개된 예제에 대한 계산 결과는 다음과 같다.

σx = sqrt [ Σ ( xi - x )2 / N ]
σx = sqrt( 730/5 ) = sqrt(146) = 12.083

 

σy = sqrt [ Σ ( yi - y )2 / N ]
σy = sqrt( 630/5 ) = sqrt(126) = 11.225

R2 = { ( 1 / N ) * Σ [ (xi - x) * (yi - y) ] / (σx * σy ) }2
R2 = [ ( 1/5 ) * 470 / ( 12.083 * 11.225 ) ]2 = ( 94 / 135.632 )2 = ( 0.693 )2 = 0.48


이 예제의 경우 결정계수는 0.48 이며, 이것은 적성검사 점수(독립변수)가 통계성적(종속변수)의 약 48%를 설명할 수 있다는 것을 의미한다. 통계선생님이 학생의 통계 성적을 예측하는데 도움을 줄 수 있다는 점에서 자료에 대한 회귀식의 적합성이 좋다고 생각할 수 있다.

반응형