728x90
반응형
내장된 예제 데이터 세트
사이킷런에는 별도의 외부 웹사이트에서 데이터 세트를 내려받을 필요 없이 예제로 활용할 수 있는 간단하면서도 좋은 데이터 세트가 내장되어 있습니다. 이 데이터는 datasets 모듈에 있는 여러 API를 호출해 만들 수 있습니다.
<지도학습/비지도학습>
<fetch>
fetch 계열의 명령은 데이터의 크기가 커서 패키지에 처음부터 저장돼 있지 않고 인터넷에서 내려받아 홈 디렉터리 아래의 scikit_learn_data라는 서브 디렉터리에 저장한 후 추후 불러들이는 데이터입니다. 따라서 최초 사용 시에 인터넷에 연결돼 있지 않으면 사용할 수 없습니다.
지도학습 예제 데이터의 구성
- data는 피처의 데이터 세트를 가리킵니다.
- target은 분류 시 레이블 값, 회귀일 때는 숫자 결과값 데이터 세트입니다.
- target_names는 개별 레이블의 이름을 나타냅니다.
- feature_names는 피처의 이름을 나타냅니다.
- DESCR은 데이터 세트에 대한 설명과 각 피처의 설명을 나타냅니다.
data,target은 넘파이 배열(ndarray)타입이며, target_names, feature_names는 넘파이 배열 또는 파이썬 리스트(list)입니다. DESCR은 스트링 타입입니다.
피처의 데이터 값을 반환받기 위해서는 내장 데이터 세트 API를 호출한 뒤에 그 Key 값을 지정하면 됩니다.
728x90
반응형
'머신러닝 (Machine Learning) > python Scikit-learn library' 카테고리의 다른 글
Model Selection 모듈(학습/테스트 분리,교차검증) (0) | 2021.02.10 |
---|---|
사이킷런으로 데이터 전처리(결손값,인코딩,스케일) (0) | 2021.02.07 |
사이킷런 기반 프레임워크(2) 사이킷런의 주요 모듈 (0) | 2021.02.07 |
사이킷런 기반 프레임워크(1) Estimator, fit(), predict() 메서드 (0) | 2021.02.07 |
사이킷런 특징과 설치법 (0) | 2021.02.07 |