머신러닝 (Machine Learning)/회귀(Regression) 분석

선형 회귀 분석 종류와 유형 (feat.다중공선성)

DS지니 2021. 2. 1. 23:27
728x90
반응형

여러 가지 회귀 중에서 선형 회귀가 가장 많이 사용됩니다. 이유는 모형의 내용을 사람이 직관적으로 이해할 수 있기 때문이죠! 선형 회귀는 실제 값과 예측값의 차이(오류의 제곱 값)를  최소화하는 직선형 회귀선을 최적화(optimize)하는 방식입니다.

 

선형모델 종류

선형 회귀 모델은 규제(Regularization) 방법에 따라 다시 별도의 유형으로 나뉠 수 있습니다. 

Regularization은 일반적인 선형 회귀의 과적합(overfitting) 문제를 해결하기 위해서 회귀 계수에 패널티(Penalty) 값을 적용하는 것을 말합니다. 대표적인 선형 모델은 다음과 같습니다.

 

선형모델 종류 특징
일반선형회귀모델
(Generalized Linear Regression Model, GLM)
예측값과 실제 값의 RSS(Residual Sum of Squares)를 최소화할 수 있도록 회귀 계수를 최적화하며, 규제(Regularization)를 적용하지 않은 모델
릿지회귀모델
(Ridge Regression Model)
릿지 회귀 모델 = 선형모델 + L2 Regularization
L2 규제는 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시키기 위해서 회귀 계수값을 더 작게 만드는 규제 모델
라쏘회귀모델
(Lasso Regression Model)
라쏘 회귀 모델 = 선형모델 + L1 Regularization
L1 규제는 예측 영향력이 작은 피처의 회귀 계수를 0으로 만들어 회귀 예측 시 피처가 선택되지 않게 하는 것. (이러한 특성 때문에 L1 규제는 피처 선택 기능으로 불린다)
엘라스틱넷 회귀모델
(ElasticNet Regression Model)
엘라스틱넷 회귀 모델 = L2 + L1 Regularization
주로 피처가 많은 데이터 세트에서 적용되며, L1 규제로 피처의 개수를 줄임과 동시에 L2 규제로 계수 값의 크기를 조정.
로지스틱 회귀모델
(Logistic Regression Model)
로지스틱 회귀는 회귀라는 이름이 붙어 있지만, 사실은 분류에 사용되는 선형 모델이다. 로지스틱 회귀는 매우 강력한 분류 알고리즘. 일반적으로 이진 분류뿐만 아니라 희소 영역의 분류, 예를 들어 텍스트 분류와 같은 영역에서 뛰어난 예측 성능을 보인다.

선형 분석 유형

분석 유형 구분 함수 특징
단순 선형 회귀분석
(Simple Linear Regression)
독립변수가 1개인 선형모델 1차함수
Y=aX+b
독립변수 X와 종속변수 Y의 정보를 가지고, 일차 방정식의 계수 a, b를 찾는 과정이 단순회귀분석 알고리즘이다.
다항 회귀분석
(Polynomial Regression)
독립 변수 X와 종속 변수 Y 사이에 상관관계가 있지만, 직선보다는 곡선으로 설명하는 것이 적합 할 때 사용 2차함수
2차함수 이상의 다항 함수를 이용해 두 변수 간의 선형관계를 설명하는 알고리즘이다.
(다차원의 회귀식인 다항 회귀 분석으로 단순 선형 모델의 한계를 어느정도 극복할 수 있음)
다중 회귀분석
(Multivariate Regression)
독립변수가 2개 이상인 선형모델
(독립변수는 연속성, 범주형 모두 가능)
Y=b+a1*X1+a2*X2+... 각 독립 변수의 계수(a)와 상수항(b)에 대한 적절한 값들을 찾아서 모형을 완성한다.
다중회귀분석 시 독립변수 간 상관관계가 높아 발생하는 다중공선성문제 처리가 필요.

- 다중공선성(multicollinearity)

: 독립변수들 간에 강한 상관관계가 나타나서, 회귀분석의 전제가정(독립변수들 간의 상관관계가 높으면 안된다) 조건을 위배하는 경우. 다중공선성의 문제가 발생하지 않기 위해서는, 연구모델을 설정할 때 미리 다중공선성의 가능성을 확인하는 것이 좋다.

 

- 다중공선성을 확인하는 방법

1.상관관계 분석을 통해 상관관계 확인. (상관관계가 0.9 이상이면 다중공선성)

2. 회귀분석의 공선성 확인. (공차한계(Tolerance)가 0.1보다 작거나 , 분산팽창요인(VIF)이 10 이상이면 다중공선성)

 

- 만약 통계분석 도중 다중공선성의 문제가 발생한 경우

1. 변인이 다르게 구분될 수 있는 문항들을 추가해 상관도를 낮춘다.

2. 변인을 다른 변인으로 변경


 

 

728x90
반응형