하루에 10분씩 공부하는 AP Statistics - #17 선형성을 위한 변형(Transformation to achieve linearity)
잔차그림을 통해 자료가 비선형임을 알았다면, 원래 자료를 "변환(transform)"해서 선형이 되도록 할 수 있다. 이를 이용하면 비선형자료에 대해 선형회귀(linear regression) 방법을 적용할 수 있다.
▶ 선형성을 얻기 위한 변환이란?(What is a Transformation to Achieve Linearity?)
변수의 변환은 측정 단위를 바꾸기 위환 수학적 연산을 사용한다. 광범위한 의미에서 2가지 변환 방법이 있다.
- 선형변환(Linear transformation)
선형변환은 변수 간의 선형관계를 유지한다. 따라서 선형변환 후에 x와 y사이의 상관관계는 변하지 않는다.
변수 x에 대한 선형변환의 예로 x에 상수를 곱하거나, 나누거나 또는 x에 상수를 더하는 것을 들 수 있다.
- 비선형변환(Nonlinear transformation)
비선형변환은 변수 간의 선형관계를 (증가시키거나 감소시켜서) 변화시킨다.
따라서 두 변수 간의 상관관계도 변하게 된다.
비선형변환의 예로는 x에 제곱근을 씌우거나 x의 역수를 취하는 것 등을 들 수 있다.
회귀분석에서 선형성을 얻기 위해 변환을 하는 것은 비선형변환의 특별한 경우로 두 변수 간의 선형관계를 증가시킨다.
▶ 선형성을 얻기 위한 변수의 여러 가지 변환방법(Methods of Transforming Variables to Achieve Linearity)
회귀분석에서 선형성을 얻기 위환 변수의 변환 방법은 여러 가지 방법이 있다. 다음은 대표적인 방법을 요약한 것이다.
Method | Transformation(s) | Regression equation | Predicted value (ŷ) |
Standard linear regression | None | y = b0 + b1x | ŷ = b0 + b1x |
Exponential model | Dependent variable = log(y) | log(y) = b0 + b1x | ŷ = 10b0 + b1x |
Quadratic model | Dependent variable = sqrt(y) | sqrt(y) = b0 + b1x | ŷ = ( = b0 + b1x )2 |
Reciprocal model | Dependent variable = 1/y | 1/y = b0 + b1x | ŷ = 1 / ( b0 + b1x ) |
Logarithmic model | Independent variable = log(x) | y= b0 + b1log(x) | ŷ = b0 + b1log(x) |
Power model | Dependent variable = log(y) Independent variable = log(x) |
log(y)= b0 + b1log(x) | ŷ = 10b0 + b1log(x) |
각 열은 여러가지 비선형변환 방법을 나타낸 것이다. 두 번째 열은 종속변수와 독립변수에 비선형변환을 적용하는 방법을 나타낸 것이고 세 번째 열은 해당 비선형변환을 이용한 회귀식을 나타낸다. 마지막 열은 변환하기 이전 척도를 사용하는 원 종속변수의 값을 구하기 위한 "역변환(back transformation)"식을 나타낸 것이다.
실제로 이러한 비선형변환 중에 어떤 변환방법이 선형관계를 증가시키는지 알기 위해서는 자료에 적용해 보아야 한다. 변환 결과를 시험하기 위해서는 다음 설명에 따라 잔차그림이나 상관계수를 확인하도록 한다.
주) 로그모형과 지수모형을 사용하기 위해서는 로그에 대한 이해가 필요하다. 공학용계산기를 이용해 어떤 수에 로그를 취한 값 또는 로그값을 원래 수로 변환할 수 있다.
▶ 선형성을 얻기 위한 변환방법(How to Perform a Transformation to Achieve Linearity)
선형성을 얻기 위한 자료의 변환은 시행착오를 거치는 여러 단계가 필요하다.
- 변환방법을 선택한다.(위 변환방법표를 참고)
- 독립변수나 종속변수 혹은 두 변수 모두 변환한다.
- 변환된 자료에서 독립변수와 종속변수를 이용해 산점도(scatter plot)를 그린다.
· 만일 산점도가 선형(linear)이라면 다음 단계로 간다.
· 만일 산점도가 비선형(non linear)이라면 첫단계로 돌아가 다른 변환방법을 선택한다.
- 변환된 변수값을 이용해 회귀분석을 수행한다.
- 회귀분석 결과를 이용해 잔차그림(residual plot)을 그린다.
· 잔차그림에서 잔차가 선형 형태를 나타낸다면(잔차가 무작위형태; random pattern)
올바른 변환방법을 선택한 것이다.
· 잔차그림에서 잔차가 비선형 형태를 나타내면(잔차가 비임의형태; non-random pattern)
첫단계로 돌아가 다른 변환방법을 선택한다.
가장 좋은 변환방법이 지수변환(exponential model)일지 이차식모형(quadratic model)일지 또는 역수모형(reciprocal model)이나 다른 모형일지는 원 자료의 특성에 달려있다. 가장 좋은 방법이 무엇일지 결정하는 방법은 각 방법을 적용해보고 결과(잔차그림, 상관계수)를 비교하는 것이다.
▶ 변환 예제 (A Transformation Example)
왼쪽 표는 독립변수 x와 종속변수 y를 나타낸 것이다. 원 자료에 선형회귀를 적용하면 잔차그림에서 비임의형태(U-형 곡선; U-shaped curve)난다. 따라서, 자료가 비선형임을 알 수 있다.
|
![]() |
종속변수에 이차식모형(quardratic model)을 적용해 회귀분석을 다시 실시해보자. 이차식모형을 적용하기 위해 종속변수로 y값에 제곱근을 씌운다. 다음은 비선형변환을 적용한 이후의 결과를 나타낸 것이다.
|
![]() |
잔차그림에서 선형성을 얻기위한 변환이 성공적임을 알 수 있다. 잔차의 형태가 무작위(random)로 나타나는데 이것은 독립변수(x)와 변환된 종속변수(y의 제곱근)이 선형임을 의미한다. 또, 결정계수(coefficient of determination)가 변환된 자료에서는 0.96으로 나타나 원자료의 0.88보다 높게 나타났다. 이는 자료의 변환을 통해 더 좋은 결과를 얻었음을 의미한다.
확인하고 넘어가기
Problem1
In the context of regression analysis, which of the following statements are true?
I. A linear transformation increases the linear relationship between variables.
II. A logarithmic model is the most effective transformation method.
III. A residual plot reveals departures from linearity.
(A) I only
(B) II only
(C) III only
(D) I and II only
(E) I, II, and III