728x90
반응형

머신러닝 (Machine Learning)/python Scikit-learn library 6

Model Selection 모듈(학습/테스트 분리,교차검증)

사이킷런 Model Selection 모듈 1. 학습데이터와 테스트 데이터 세트 분리(train_test_split()) 2. 교차 검증 분할 및 평가 3. 하이퍼 파라미터 튜닝을 위한 다양한 함수와 클래스 제공 >> 더 자세한 코드 github https://github.com/gggggeun/study/blob/main/1.%20%EC%82%AC%EC%9D%B4%ED%82%B7%EB%9F%B0(Scikit_learn)/3.%20Scikit-learn%20Model%20Selection%20%EB%AA%A8%EB%93%88.ipynb gggggeun/study Contribute to gggggeun/study development by creating an account on GitHub. githu..

사이킷런으로 데이터 전처리(결손값,인코딩,스케일)

데이터 전처리(Data Preprocessing)는 머신러닝 알고리즘만큼 중요합니다. 어떻게 전처리해서 어떤 데이터를 입력으로 가지느냐에 따라 결과가 크게 달라지기 때문입니다. 1. 결손값 이 값들은 다른 값으로 변환하던지 없애야합니다. 그럼 어떤 값을 변환해야 하고, 어떤 값을 없애야 할까요? 일반적으로는 아래와 같습니다. Null 값이 많지 않은 Feature : 평균값, 최빈값 등으로 대체 Null 값이 많은 Feature : 해당 Feature 삭제 하지만, 해당 피처의 중요도가 높을 경우엔 단순히 평균값으로 대체하거나 삭제해버리면 옳바른 예측을 할 수 없을 것 입니다. 이럴 경우에는 업무 로직 등을 상세히 검토해 더 정밀한 대체 값을 선정해야 합니다. 결손값은 경우에 따라 데이터 전처리 과정에서..

사이킷런 기반 프레임워크(3) 사이킷런에 내장된 예제 데이터 세트

내장된 예제 데이터 세트 사이킷런에는 별도의 외부 웹사이트에서 데이터 세트를 내려받을 필요 없이 예제로 활용할 수 있는 간단하면서도 좋은 데이터 세트가 내장되어 있습니다. 이 데이터는 datasets 모듈에 있는 여러 API를 호출해 만들 수 있습니다. fetch 계열의 명령은 데이터의 크기가 커서 패키지에 처음부터 저장돼 있지 않고 인터넷에서 내려받아 홈 디렉터리 아래의 scikit_learn_data라는 서브 디렉터리에 저장한 후 추후 불러들이는 데이터입니다. 따라서 최초 사용 시에 인터넷에 연결돼 있지 않으면 사용할 수 없습니다. 지도학습 예제 데이터의 구성 data는 피처의 데이터 세트를 가리킵니다. target은 분류 시 레이블 값, 회귀일 때는 숫자 결과값 데이터 세트입니다. target_na..

사이킷런 기반 프레임워크(2) 사이킷런의 주요 모듈

자주쓰이는 핵심 모듈 위주입니다. 분류 모듈명 설명 예제 데이터 sklearn.datasets 사이킷런에 내장되어 예제로 제공하는 데이터 세트 피처 처리 sklearn.preprocessing 데이터 전처리에 필요한 다양한 가공 기능 제공 (인코딩, 정규화, 스케일링 등) sklearn.feature_selection 알고리즘에 큰 영향을 미치는 피처를 우선순위대로 설렉션 작업을 수행하는 다양한 기능 제공 sklearn.feature_extraction sklearn.feature_extraction.text (텍스트데이터) sklearn.feature_extraction.image (이미지 데이터) 텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는데 사용함. (예를 들어 텍스트 데이터에서 Cou..

사이킷런 기반 프레임워크(1) Estimator, fit(), predict() 메서드

Estimator 이해 및 fit(), predict() 메서드 사이킷런은 API 일관성과 개발 편의성을 제공하기 위한 노력이 엿보이는 머신러닝학습에 최적인 패키지입니다. 사이킷런은 머신러닝 모델 학습을 위해서 fit() 메서드와 학습된 모델의 예측을 위해 predict() 메서드를 제공합니다. 사이킷런에서는 분류 알고리즘을 구현한 클래스를 Classifier로, 회귀 알고리즘을 구현한 클래스를 Regressor로 지칭하고, 이 둘을 합쳐 Estimator 클래스라고 부릅니다.(지도학습의 모든 알고리즘을 구현한 클래스를 통칭함) 이 Estimator 클래스는 fit()과 predcict()만을 이용해 간단하게 학습과 예측 결과를 반환합니다. Scikit-learn class 구현 클래스 Estimator..

사이킷런 특징과 설치법

사이킷런은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리이다. 파이썬 기반의 머신러닝은 곧 사이킷런으로 개발하는 것을 의미할 정도로 오랜 기간 파이썬 세계에서 인정받았으며, 사이킷런은 파이썬 기반의 머신러닝을 위한 가장 쉽고 효율적인 개발 라이브러리를 제공합니다. 사이킷런 사이트 https://scikit-learn.org/stable/modules/classes.html API Reference — scikit-learn 0.24.1 documentation scikit-learn.org 사이킷런 깃헙 github.com/scikit-learn/scikit-learn scikit-learn/scikit-learn scikit-learn: machine learning in Python. ..

728x90
반응형