728x90
반응형

머신러닝 (Machine Learning)/분류(Classification) 분석 11

앙상블 - Random Forest

관련 포스팅 - 앙상블(Ensemble) 앙상블(Ensemble) 1. 앙상블 방법들(Ensemble methods) 앙상블은 분류에서 가장 각광받는 알고리즘 방법 중 하나입니다. 딥러닝을 제외한 정형 데이터의 예측 분석 영역에서는 앙상블이 매우 높은 예측 성능으로 인해 gggggeun.tistory.com 관련 포스팅 - 앙상블 - 배깅(Bagging) 앙상블 - 배깅(Bagging) 참고 : KoreaUniv DSBA 영상 다양성(Diversity) Implicit Diversity Explicit Diversity Description 무작위의 서로 다른 training data 여러개를 제공하면 학습 결과도 달라질 것 다른 구성원과 실질적으로 다른.. gggggeun.tistory.com * 앙상..

앙상블 - 배깅(Bagging)

참고 : KoreaUniv DSBA 영상 다양성(Diversity) Implicit Diversity Explicit Diversity Description 무작위의 서로 다른 training data 여러개를 제공하면 학습 결과도 달라질 것 다른 구성원과 실질적으로 다른지 확인하는 몇 가지 측정지표를 사용해서 이전 모델과는 다른 모델이 만들어지도록 유도하는 것 앙상블 알고리즘 Bagging Random Forest Boosting Negative Correlation Learning(NCL) *NCL : 다양함이 높으면 모델간의 상관계수는 낮아야한다라는 논리적 근거를 통해 나온 알고리즘 # 앙상블의 핵심 키워드 : Diversity 1. 데이터의 다양성 2. 모델의 다양성 1. KFold Data Sp..

앙상블 - 보팅(Voting)

1. 보팅 방법 (voting methods) 하드 보팅(Hard Voting) 소프트 보팅(Soft Voting) 최빈값 평균값 예측한 결괏값들 중 다수의 분류기가 결정한 예측값을 최종 보팅 결괏값으로 선정 만약 레이블 값이 2개일 때, 레이블 1번 과 레이블 2번 중 다수의 레이블로 예측. 분류기들의 레이블 값 결정 확률을 모두 더하고 이를 평균해서 이들 중 확률이 가장 높은 레이블 값을 최종 보팅 결괏값으로 선정. 일반적으로 이 방법을 사용함. 만약 레이블 값이 2개일 때, 레이블 값이 1번인 경우의 확률의 평균과 레이블 값이 2번인 경우의 확률의 평균 중 높은 평균의 레이블로 예측. 일반적으로 하드 보팅보다는 소프트 보팅의 예측 성능이 좋아 더 많이 사용된다. 2. Result Aggregatin..

앙상블(Ensemble)

1. 앙상블 방법들(Ensemble methods) 앙상블은 분류에서 가장 각광받는 알고리즘 방법 중 하나입니다. 딥러닝을 제외한 정형 데이터의 예측 분석 영역에서는 앙상블이 매우 높은 예측 성능으로 인해 많은 분석가와 데이터 과학자들이 사용합니다. (* 딥러닝 : 이미지, 영상, 음성, NLP 영역에서 신경망에 기반한 머신러닝의 종류) 앙상블 학습을 통한 분류는 여러개의 분류기(Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도축하는 기법을 말하며, 당연히 단일분류기보다 신뢰성이 높은 예측값을 얻는 것이 목표입니다. 배깅 방식의 대표인 랜덤 포레스트(Random Forest)는 뛰어난 예측 성능, 상대적으로 빠른 수행 시간, 유연성 등으로 많은 분석가가 애용하는 알고리즘..

결정 트리의 과적합 (Overfitting) 시각화로 이해하기

결정트리의 과적합 문제를 시각화해 더 자세히 알아보겠습니다. 1. 사이킷런 make_classification 으로 분류의 표본 데이터 생성하기 - hyperparameter = defalt # make_classification 분류를 위한 테스트용 데이터 만들기 from sklearn.datasets import make_classification import matplotlib.pyplot as plt %matplotlib inline plt.title("3 Class values with 2 Features Sample data creation") #2차원 시각화를 위해 피처는 2개, 클래스는 3가지 유형의 분류 샘플 데이터 생성. X_features, y_labels = make_classifi..

Decision Tree Graphviz

▶ Jupyter notebook 과 Google Colab에서 Graphviz 사용하기. (설치 및 사용법) velog.io/@gggggeun1/%EA%B2%B0%EC%A0%95%ED%8A%B8%EB%A6%AC-%EA%B7%B8%EB%9E%98%ED%94%84-exportgraphviz 결정트리 그래프 export_graphviz 1) 프로그램 설치하기https://graphviz.org/download/(설치 시 특별한 설치 디렉터리를 지정하지 않으면 C:\\Program Files\\Graphviz 와 같은 디렉터리에 Graphviz가 설치됨)2) Graphviz 파이썬 래퍼 모듈 velog.io 1. 결정 트리 그래프에 대한 설명 더 이상 자식 노드가 없는 노드는 레이블 값이 결정되는 Leaf n..

결정 트리 (Decision Tree)

결정트리는 머신러닝 알고리즘 중 직관적으로 이해하기 쉬운 알고리즘입니다. 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리(Tree) 기반의 분류 규칙을 만드는 것입니다. if/else를 기반으로 예측을 위한 규칙을 만드는 알고리즘으로 스무고개 게임을 생각해 볼 수 있습니다. 따라서, 데이터의 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될 것인가가 알고리즘의 성능을 크게 좌우합니다. 1. 결정트리의 구조 각 가지의 특성에 따라 Node 이름이 있습니다. 데이터 세트에 피처가 있고 이러한 피처를 결합해 규칙 조건을 만들 때마다 규칙 노드가 만들어집니다. 하지만 많은 규칙이 있다는 것은 곧 분류를 결정하는 방식이 더욱 복잡해진다는 얘기고, 이는 곧 과적합으로 이어지기 쉽습니다. 즉, 트..

분류의 평가(Evaluation) (2) F1 score , ROC AUC

- 분류의 평가(Evaluation) (1) Confusion Matrix, Accuracy, Precision, Recall 분류의 평가(Evaluation) (1) Confusion Matrix, Accuracy 머신러닝은 데이터 가공/변환, 모델 학습/예측, 그리고 평가(Evaluation)의 프로세스로 구성되어있습니다. 머신러닝 모델은 여러 가지 방법으로 예측 성능을 평가 할 수 있는데, 이 성능 평가 지표(E gggggeun.tistory.com 🎯 회귀와 분류의 성능평가지표들 지도학습 Baseline (기준모델) Evaluation Metric (성능평가지표) Regression (회귀) 실제값과 예측값의 오차 평균값 MAE , MSE, R^2 Classification (분류) Majorit..

분류의 평가(Evaluation) (1) Confusion Matrix, Accuracy, Precision, Recall

머신러닝은 데이터 가공/변환, 모델 학습/예측, 그리고 평가(Evaluation)의 프로세스로 구성되어있습니다. 머신러닝 모델은 여러 가지 방법으로 예측 성능을 평가 할 수 있는데, 이 성능 평가 지표(Evaluation Metric)는 일반적으로 모델이 분류(Classification)이냐 회귀(Regression)이냐에 따라 다릅니다. 🎯 회귀와 분류의 성능평가지표들 지도학습 Baseline (기준모델) Evaluation Metric (성능평가지표) Regression (회귀) 실제값과 예측값의 오차 평균값 MAE , MSE, R^2 Classification (분류) Majority(최빈값) Accuracy (정확도) Confusion Matrix (오차행렬) Precision (정밀도) Reca..

분류(Classification)

1. 머신러닝(지도학습) 지도학습은 레이벨(Label) or 타겟(Target) 이라고 하는 명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식입니다. 지도학습은 2종류로 나뉘는데 회귀(Regression)과 분류(Classification) 입니다. 머신러닝(Machine Learning) 지도학습 분류(Classification) 이산 값 (class labels) 회귀(Regression) 연속 값 (number) 비지도학습 ※ 지도학습의 머신러닝 모델 만드는 과정 학습 데이터(Train data)로 주어진 데이터의 Feature와 Target을 머신러닝 알고리즘으로 학습해 모델을 생성(Fit) 하고, 이렇게 생성된 모델에 새로운 데이터 값(Test data)이 주어졌을 때 미지의..

728x90
반응형