728x90
반응형

머신러닝 (Machine Learning)/회귀(Regression) 분석 4

선형 회귀 분석 종류와 유형 (feat.다중공선성)

여러 가지 회귀 중에서 선형 회귀가 가장 많이 사용됩니다. 이유는 모형의 내용을 사람이 직관적으로 이해할 수 있기 때문이죠! 선형 회귀는 실제 값과 예측값의 차이(오류의 제곱 값)를 최소화하는 직선형 회귀선을 최적화(optimize)하는 방식입니다. 선형모델 종류 선형 회귀 모델은 규제(Regularization) 방법에 따라 다시 별도의 유형으로 나뉠 수 있습니다. Regularization은 일반적인 선형 회귀의 과적합(overfitting) 문제를 해결하기 위해서 회귀 계수에 패널티(Penalty) 값을 적용하는 것을 말합니다. 대표적인 선형 모델은 다음과 같습니다. 선형모델 종류 특징 일반선형회귀모델 (Generalized Linear Regression Model, GLM) 예측값과 실제 값의 ..

회귀 분석을 하는 이유 (feat.회귀선, 회귀 계수)

회귀 분석을 하는 이유 관찰이나 실험으로 얻은 샘플자료(적은 수의 자료)를 분석하고 설명하기 위해서는 그 자료를 잘 표현할 수 있는 '방정식'을 예측해야 합니다. 자료를 가장 잘 설명하는 방정식이란, 원래 자료와의 오차(error)를 가장 적게 만든 식 입니다. 아래 그림의 x와 y의 분포도에 있는 저 선(Regression line)이 바로 '자료를 가장 잘 설명하는 방정식'이 됩니다. 회귀분석에서는 이 선을 '회귀선'이라고 하며, 이 회귀선의 '회귀(방정)식'을 이용하면 독립변수로 종속변수를 예측할 수 있게 됩니다. 아래 그림은 종속변수(price)와 독립변수(sqft_living)의 분포도와 회귀선을 나타낸 그래프입니다. 저 회귀선은 흩어져 있는 잔차들(산포도)을 가장 잘 대표하는 선이죠! 여기서 ..

머신러닝 모델 만들기 (분류분석과 회귀분석)

머신러닝(Machine Learning) 지도학습 분류(Classification) 이산 값 (class labels) 회귀(Regression) 연속 값 (number) 비지도학습 회귀분석(regression)은 머신러닝 알고리즘 중에서도 비교적 이해하기 쉽고, 널리 활용되고 있는 대표적인 알고리즘이며 연속 변수를 예측하는데 주로 활용됩니다. 머신러닝에서는 모형의 예측값인 종속변수에 대한 실제 데이터(답)를 알고 있는 상태에서 학습하기 때문에 지도학습(Supervised learning)으로 분류됩니다. (머신러닝의 지도학습과 비지도학습은 간단하게 예측하려는 답을 알고있나 알고있지 않나로 나뉩니다.) 회귀분석에서의 의미 같은 단어 종속변수 (Dependent) 분석 모델이 예측하고자 하는 목표 예측변수..

728x90
반응형