하루에 10분씩 공부하는 AP Statistics - #51 회귀직선의 기울기 추정(Estimate Regression Slope)
여기서는 회귀직선의 기울기에 대한 신뢰구간을 어떻게 정하는지 알아보자.
ŷ = b0 + b1x
여기서 b0 는 상수, b1 는 기울기(회귀계수), x 는 독립변수, ŷ 종속변수의 예측값이다.
▶ 추정 조건(Estimation Requirements)
앞으로 다루는 추정방법은 다음 조건이 만족되었을 경우에만 적용가능 하다.
- 종속변수 Y는 독립변수 X와 선형관계이다.
- 각 X 값에 대해 Y의 확률분포는 같은 표준편차 σ를 갖는다.
- 임의의 X 값에 대해
- Y의 값은 독립이다.
- Y의 값은 대략 정규분포를 따른다. (즉, 대칭인 단봉분포)
만일 표본의 크기가 크다면 약간의 치우침(skewness)은 무방하다.
앞에서 회귀조건의 만족여부 판정법을 살펴보았다.
▶ 추정 기울기의 변동성(The Variability of the Slope Estimate)
회귀직선의 기울기에 대한 신뢰구간을 구하기 위해 기울기의 표집분포의 표준오차를 알아야 한다. 많은 통계 소프트웨어 또는 공학용 전자계산기는 회귀분석 결과로 기울기의 표준오차를 제공한다. 아래 표는 y = 76 + 35x 라는 회귀식에 대한 가상결과를 나타낸 것이다.
Predictor | Coef | SE Coef | T | P |
Constant | 76 | 30 | 2.53 | 0.01 |
X | 35 | 20 | 1.75 | 0.04 |
위의 결과에서 기울기의 표준오차(회색부분)는 20 이다. 표준오차는 "SE Coeff"로 표시되어 있지만 다른 통계 소프트웨어에서는 표준오차를 "stDev", "SE", "Std Dev" 등의 다른 이름으로 표시할 수 있다.
기울기의 표준오차(SE)를 직접 계산하기 위해서는 다음 식을 사용한다.
SE = sb1 = sqrt [ Σ(yi - ŷi)2 / (n - 2) ] / sqrt [ Σ(xi - x)2 ]
여기서 yi 는 i번째 관측값의 종속변수 값, ŷi i번째 관측값의 종속변수 추정값, xi 는 i번째 관측값의 독립변수 값, x 는 독립변수의 평균, n 은 관측값의 개수이다.
▶ 회귀직선의 기울기에 대한 신뢰구간 설정
(How to Find the Confidence Interval for the Slope of a Regression Line)
앞서 신뢰구간을 정하는 법을 살펴보았다. 회귀직선 기울기의 신뢰구간에 대해서도 비슷한 방법을 사용한다. 주의할 점은 임계값은 n-2 의 자유도를 가지는 t 점수를 사용한다는 점이다.
- 표본 통계량을 구한다.
표본자료에서 구한 회귀직선의 기울기 b1 을 표본 통계량으로 사용한다.
위의 표에서 회귀직선의 기울기는 35 이다.
- 신뢰수준을 정한다.
신뢰수준은 표집방법의 불확실성을 나타낸다. 보통 90%, 95%, 99% 신뢰수준을 많이 사용하고, 다른 신뢰수준도 사용할 수 있다.
- 오차한계를 구한다.
앞서 임계값과 표준편차를 이용해 오차한계를 계산하는 법을 살펴보았다.
회귀직선의 기울기의 오차한계를 계산하기 위해 자유도(DF)가 n - 2 인 t 점수를 임계값으로 사용한다.
- 신뢰구간을 정한다.
신뢰구간은 표본통계량 + 오차한계(sample statistic + margin of error)로 구하고, 불확실성은 신뢰수준으로 나타낸다.
확인문제에서 회귀직선의 기울기에 대한 신뢰구간을 설정하는 방법을 어떻게 적용하는지 살펴보자.
확인하고 넘어가기
Problem 1
The local utility company surveys 101 randomly selected customers. For each survey participant, the company collects the following: annual electric bill (in dollars) and home size (in square feet). Output from a regression analysis appears below.
Regression equation: Annual bill = 0.55 * Home size + 15 | ||||
Predictor | Coef | SE Coef | T | P |
Constant | 15 | 3 | 5.0 | 0.00 |
Home size | 0.55 | 0.24 | 2.29 | 0.01 |
What is the 99% confidence interval for the slope of the regression line?
(A) 0.25 to 0.85
(B) 0.02 to 1.08
(C) -0.08 to 1.18
(D) 0.20 to 1.30
(E) 0.30 to 1.40