하루에 10분씩 공부하는 AP Statistics - #15 단순회귀 예제(A Simple Regression Example)
여기서는 가상 자료를 이용해 어떻게 회귀분석을 적용하고 결과를 해석하는지 살펴보자.
주 : 보통 회귀분석은 소프트웨어나 공학용 계산기를 이용한다. 하지만, 여기서는 수식에 대한 이해를 돕기 위해 "직접" 계산하는 방법으로 회귀분석을 하도록 한다.
▶ 문제정의(Problem Statement)
통계학과에서는 다음 3가지 사항을 확인하고자 작년에 5명의 학생을 임의로 선택하여 통계과목을 수강하기 이전에 수학적성검사를 실시하였다.
- 수학적성검사 점수로 통계성적을 가장 잘 예측할 수 있는 선형회귀식은 무엇인가?
- 만일 학생이 수학적성검사 점수가 80점이라면 통계성적이 얼마일 것으로 기대되는가?
- 회귀식이 자료와 얼마나 잘 들어맞는가(적합)?
▶ 회귀식 찾기(How to Find the Regression Equation)
아래 표에서 xi 열은 적성검사 점수이고, yi 열은 통계성적이다. 맨 아래 2열은 회귀분석에서 사용할 합계와 평균을 나타낸 것이다.
Student | xi | yi | (xi - x) | (yi - y) | (xi - x)2 | (yi - y)2 | (xi - x)(yi - y) |
1 | 95 | 85 | 17 | 8 | 289 | 64 | 136 |
2 | 85 | 95 | 7 | 18 | 49 | 324 | 126 |
3 | 80 | 70 | 2 | -7 | 4 | 49 | -14 |
4 | 70 | 65 | -8 | -12 | 64 | 144 | 96 |
5 | 60 | 70 | -18 | -7 | 324 | 49 | 126 |
Sum | 390 | 385 | 730 | 630 | 470 | ||
Mean | 78 | 77 |
회귀식은 직선의 방정식(ŷ = b0 + b1x) 형태이다. 회귀분석을 위해서는 b0 와 b1을 구해야 하는데, 계산식은 다음과 같다.
b1 = Σ [ (xi - x)(yi - y) ] / Σ [ (xi - x)2] b1 = 470/730 = 0.644 |
b0 = y - b1 * x b0 = 77 - (0.644)(78) = 26.768 |
따라서 회귀식은 ŷ = 26.768 + 0.644x 이다.
▶ 회귀식의 적용(How to Use the Regression Equation)
회귀식을 구하고 나면 적용하는 것은 쉽다. 독립변수(x) 값을 선택해서 계산하면 종속변수(ŷ)의 추정값을 구할 수 있다.
이 예제에서 독립변수는 학생의 적성검사점수이고, 종속변수는 학생의 통계성적이다. 만일 학생의 적성검사 점수가 80점이라면 추정되는 통계성적은 78.288 이다.
이 예제에서 회귀식을 구할 때 사용한 60~95점의 범위의 적성검사 점수를 사용했다. 따라서 통계성적을 예측할 때에는 해당 범위 안의 값을 사용해야 한다. 범위 밖의 적성검사 점수(60점 미만 또는 95점 초과)를 이용할 경우 문제가 발생할 수 있다.
▶ 결정계수의 계산(How to Find the Coefficient of Determination)
회귀식을 사용할 때에는 주어진 자료에 대해 이 회귀식이 얼마나 잘 들어맞는지 즉, 적합한지 밝혀야 한다. 이 적합성을 평가하는 방법 중 하나는 결정계수(coefficient of determinatioin)를 확인하는 것이다. 결정계수는 다음식에 의해 구할 수 있다.
R2 = { ( 1 / N ) * Σ [ (xi - x) * (yi - y) ] / (σx * σy ) }2
여기서 N은 모형에 사용된 관측값의 수, xi 는 x의 i번째 관측값, x 는 x의 평균, yi 는 y의 i번째 관측값, y는 y의 평균, σx는 x의 표준편차, σy는 y의 표준편차이다. 여기서 소개된 예제에 대한 계산 결과는 다음과 같다.
σx = sqrt [ Σ ( xi - x )2 / N ] |
σy = sqrt [ Σ ( yi - y )2 / N ] | |
R2 = { ( 1 / N ) * Σ [ (xi - x) * (yi - y) ] / (σx * σy ) }2 R2 = [ ( 1/5 ) * 470 / ( 12.083 * 11.225 ) ]2 = ( 94 / 135.632 )2 = ( 0.693 )2 = 0.48 |
이 예제의 경우 결정계수는 0.48 이며, 이것은 적성검사 점수(독립변수)가 통계성적(종속변수)의 약 48%를 설명할 수 있다는 것을 의미한다. 통계선생님이 학생의 통계 성적을 예측하는데 도움을 줄 수 있다는 점에서 자료에 대한 회귀식의 적합성이 좋다고 생각할 수 있다.