하루에 10분씩 공부하는 AP Statistics - #63 회귀직선 기울기 검정(Hypothesis Test for Slope of Regression Line)
여기서는 독립변수 X와 종속변수 Y 간에 유의한 선형 관계가 있는지 여부에 대한 가설검정을 살펴보자. 이 가설검정에서는 다음 회귀직선의 기울기를 주로 다룬다.
Y = Β0 + Β1X
여기서 Β0 는 상수, Β1 은 기울기(회귀계수), X 는 독립변수, Y 는 종속변수이다.
▶ 검정 조건(Test Requirements)
가설검정을 하기 위해서는 먼저 선형회귀를 위한 다음 조건이 만족되어야 한다.
- 종속변수 Y는 독립변수 X와 선형관계이다.
- 각 X 값에 대해 Y의 확률분포는 같은 표준편차 σ를 갖는다.
- 임의의 X 값에 대해
- Y의 값은 독립이다.
- Y의 값은 대략 정규분포를 따른다. (즉, 대칭인 단봉분포)
만일 표본의 크기가 크다면 약간의 치우침(skewness)은 무방하다.
앞서 우리는 회귀조건의 만족여부 판단법을 살펴보았다.
가설 검정은 크게 (1)가설 수립, (2)분석계획 수립, (3)표본자료의 분석, (4) 결과해석 의 4단계로 이루어진다.
▶ 가설 수립(State the Hypotheses)
독립변수 X와 종속변수 Y 간에 유의한 선형관계가 있다면 기울기는 0이 아닐 것이다.
Ha: Β1 ≠ 0
귀무가설은 기울기가 0이다 이고, 대립가설은 기울기가 0이 아니다 이다.
▶ 분석계획 수립(Formulate an Analysis Plan)
분석계획은 귀무가설을 채택하거나 기각하기 위해 표본자료를 어떻게 이용할지 명시해야 한다.
이 과정은 다음 요소를 반드시 포함해야 한다.
- 유의수준(Significance level)
보통 유의수준은 0.01, 0.05, 0.10 을 많이 사용한다.
하지만 0과 1 사이의 어떤 값이라도 사용할 수 있다.
- 검정 방법(Test method)
선형회귀 t 검정(linear regression t-test)을 이용해 회귀직선의 기울기가 0과 유의한 차이가 있는지 여부를 결정한다.
▶ 표본자료의 분석(Analyze Sample Data)
표본자료를 이용해 기울기의 표준오차, 회귀직선의 기울기, 자유도, 검정 통계량 및 검정 통계량과 연관된 P 값을 구한다.
- 표준오차(Standard error)
회귀직선의 기울기에 대한 신뢰구간을 구하기 위해 기울기의 표집분포의 표준오차를 알아야 한다. 많은 통계 소프트웨어 또는 공학용 전자계산기는 회귀분석 결과로 기울기의 표준오차를 제공한다. 아래 표는 y = 76 + 35x 라는 회귀식에 대한 가상결과를 나타낸 것이다.
Predictor Coef SE Coef T P Constant 76 30 2.53 0.01 X 35 20 1.75 0.04
위의 결과에서 기울기의 표준오차(회색부분)는 20 이다. 표준오차는 "SE Coeff"로 표시되어 있지만 다른 통계 소프트웨어에서는 표준오차를 "stDev", "SE", "Std Dev" 등의 다른 이름으로 표시할 수 있다.
기울기의 표준오차(SE)를 직접 계산하기 위해서는 다음 식을 사용한다.SE = sb1 = sqrt [ Σ(yi - ŷi)2 / (n - 2) ] / sqrt [ Σ(xi - x)2 ]
여기서 yi 는 i번째 관측값의 종속변수 값, ŷi i번째 관측값의 종속변수 추정값, xi 는 i번째 관측값의 독립변수 값, x 는 독립변수의 평균, n 은 관측값의 개수이다.
- 기울기(Slope)
표준오차와 마찬가지로 회귀직선의 기울기도 통계 소프트웨어 또는 공학용 전자계산기를 이용해 구한다. 위의 결과에서 기울기는 35 이다.
- 자유도(Degrees of freedom)
자유도(DF)는 다음 식을 이용해 구한다.DF = n - 2
여기서 n 은 표본 관측값의 수 이다.
- 검정 통계량(Test statistic)
검정 통계량인 t 점수는 (t) 다음 식을 이용해 구한다.t = b1 / SE
여기서 b1 은 표본 회귀직선의 기울기, SE 기울기의 표준오차이다.
- P 값(P-value)
P 값은 관측된 표본 통계량이 검정 통계량만큼 극단적으로 치우칠 경우의 확률이다. 검정 통계량이 t 점수이므로 위에서 계산한 자유도를 갖는 t 점수는 t 누적확률분포표나 계산기를 이용해 구한다.
▶ 결과 해석(Interpret Results)
주어진 귀무가설에 해당하는 표본이 아닐 것 같다면 귀무가설을 기각한다. P 값(P-value)과 유의수준(significance leve)을 비교해 P 값이 유의수준보다 작다면 귀무가설을 기각한다.
확인하고 넘어가기
Problem
The local utility company surveys 101 randomly selected customers. For each survey participant, the company collects the following: annual electric bill (in dollars) and home size (in square feet). Output from a regression analysis appears below.
Regression equation: Annual bill = 0.55 * Home size + 15 | ||||
Predictor | Coef | SE Coef | T | P |
Constant | 15 | 3 | 5.0 | 0.00 |
Home size | 0.55 | 0.24 | 2.29 | 0.01 |
Is there a significant linear relationship between annual bill and home size? Use a 0.05 level of significance.