머신러닝 (Machine Learning)/회귀(Regression) 분석

머신러닝 모델 만들기 (분류분석과 회귀분석)

DS지니 2021. 1. 31. 15:58
728x90
반응형
머신러닝(Machine Learning) 지도학습 분류(Classification) 이산 값 (class labels)
회귀(Regression) 연속 값 (number)
비지도학습    

회귀분석(regression)은 머신러닝 알고리즘 중에서도 비교적 이해하기 쉽고, 널리 활용되고 있는 대표적인 알고리즘이며 연속 변수를 예측하는데 주로 활용됩니다.

 

머신러닝에서는 모형의 예측값인 종속변수에 대한 실제 데이터(답)를 알고 있는 상태에서 학습하기 때문에 지도학습(Supervised learning)으로 분류됩니다. (머신러닝의 지도학습과 비지도학습은 간단하게 예측하려는 답을 알고있나 알고있지 않나로 나뉩니다.)

  회귀분석에서의 의미 같은 단어
종속변수
(Dependent)
분석 모델이 예측하고자 하는 목표 예측변수(Predictor), 타겟(Target) , Label
독립변수
(Independent)
예측을 위해 모델이 사용하는 속성 설명변수(Explanatory, 특성(Feature)

이 설명이 무슨 말인지 잘 모르겠다면, 아래 그림설명을 보시고 다시 읽어보세요!


머신러닝 모델 만드는 방법 (Basic)

  1. 데이터 전처리 후 특성데이터(Feature)과 타겟데이터(Target)를 고른다.
  2. 가지고 있는 데이터를 훈련데이터와 테스트데이터로 나눈다. ex) 7:3
  3. 훈련데이터로 예측모델을 만든다.
  4. 테스트데이터의 feature data를 모델에 넣어 Target data를 예측한다.

무슨 말이냐구요? 밑에 그림으로 설명해 드릴게요 ㅎㅎ

분석모델  만드는 방법 (분석 모델을 만들고 예측하기까지)

 

먼저 첫번째 그림에서처럼 정제된 데이터셋이 필요합니다.

 

그 다음 두번째 그림처럼 데이터셋 안에서 무엇을 예측할 것인지(종속변수,타겟)모델을 학습시킬 종속변수와 관련있는 특성(독립변수,피쳐)을 골라야합니다. 일반적으로 Target Data(종속변수)가 연속값이면 회귀분석을 하고, 이산 값이면 분류분석을 합니다.

회귀분석일 경우 독립변수를 1개만 선택하면 단일회귀분석(simple Linear Regression)이라고 하며 사실 실무에 잘 사용하지 않습니다. 보통 2개 이상의 독립변수를 사용하는데, 다중회귀분석(Multivariate Regression)이라고 합니다.(=그림에서는 편의 상 1개의 Feature만 사용했지만, 2개 이상의 Feature를 자주 사용합니다.)

 

 

세번째 그림은 선택한 특성과 타겟의 정보를 Train data(기계가 학습할 정보)와 Test data(기계가 예측할 정보)로 나누는 것 입니다. 나누는 방식은 여러가지가 있는데요! 7:3이던지 5:5이던지 또는 20년의 데이터:21년의 데이터 처럼 시계열로 나눌 건지 등은 무엇을 예측할 것인지,데이터 정보에 따라 달라집니다. 그리고 Train data가 많을수록 기계가 학습할 정보가 많아지니 예측률이 더 높아지는건 당연한 사실이겠죠?!

 

그 다음 4번째 그림 가운데 줄입니다. 이제 우리가 할 일은 끝났습니다. 'Machine Learning' 일만 남았죠! 말 그대로 기계가 학습하는 일. Train data를 빨강이 머신이 공부하고 있네요 ㅋㅋ 그리고 Predictive Model(예측모델)을 만들어냈습니다!! 우와ㅎㅎㅎ! 박수!!

 

이제 마지막 일이 남았네요. 우리의 목표, 예측하는 것이죠! 마지막 그림 Test data에서 Target을 제외한 Feature을 모델에 주었더니 두둥!  Target을 예측해 내었습니다. Yeah! 이제 머신러닝 모델을 만드는 과정이 어떤건지 잘 알겠죠!

물론 실제 Target과 비교해보면 오차가 있을 테지만요! 이 오차에 대해서는 다른 포스트에서 다뤄볼게요!

 


우리는 이미 Target의 답을 갖고있습니다. 알고 있는 상태에서 모델에 넣어 모델이 예측하게 한 것이죠! 이것이 답을 알고 있는 상태에서 기계에 학습시키는 지도학습입니다. 그리고 이제 우리는 머신러닝의 지도학습인 회귀분석과 분류분석의 차이점을 알고있습니다! 💁‍♀️

 

 

참고자료

 

 

 

 

728x90
반응형