728x90
반응형
내장된 예제 데이터 세트
사이킷런에는 별도의 외부 웹사이트에서 데이터 세트를 내려받을 필요 없이 예제로 활용할 수 있는 간단하면서도 좋은 데이터 세트가 내장되어 있습니다. 이 데이터는 datasets 모듈에 있는 여러 API를 호출해 만들 수 있습니다.
<지도학습/비지도학습>
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
# 지도학습 (분류와 회귀)을 연습하귀 위한 예제용도의 데이터 세트 | |
# 분류 (Classification) | |
datasets.load_breast_cancer() # 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트 | |
datasets.load_digits() # 0에서 9까지 숫자의 이미지 픽셀 데이터 세트 | |
datasets.load_iris() # 붓꽃에 대한 피처를 가진 데이터 세트 | |
# 회귀 (Regression) | |
datasets.load_boston() # 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트 | |
datasets.load_diabetes() # 당뇨 데이터 세트 |
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
# 비지도 학습 (분류와 클러스터링)을 위한 표본 데이터 생성기 | |
datasets.make_classifications() # 분류를 위한 데이터 세트를 만듭니다. | |
# 특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성해 줍니다. | |
datasets.make_blobs() # 클러스터링을 위한 데이터 세트를 무작위로 생성해 줍니다. | |
# 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 쉽게 만들어 줍니다. |
<fetch>
fetch 계열의 명령은 데이터의 크기가 커서 패키지에 처음부터 저장돼 있지 않고 인터넷에서 내려받아 홈 디렉터리 아래의 scikit_learn_data라는 서브 디렉터리에 저장한 후 추후 불러들이는 데이터입니다. 따라서 최초 사용 시에 인터넷에 연결돼 있지 않으면 사용할 수 없습니다.
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
fetch_covtype() # 회귀 분석용 토지 조사 자료 | |
fetch_20newsgroupw() # 뉴스 그룹 텍스트 자료 | |
fetch_olivtti_faces() # 얼굴 이미지 자료 | |
fetch_lfw_people() # 얼굴 이미지 자료 | |
fetch_lfw__pairs() # 얼굴 이미지 자료 | |
fetch_rcv() # 로이터 뉴스 말뭉치 | |
fetch_mldata() # ML 웹사이트에서 다운로드 |
지도학습 예제 데이터의 구성
- data는 피처의 데이터 세트를 가리킵니다.
- target은 분류 시 레이블 값, 회귀일 때는 숫자 결과값 데이터 세트입니다.
- target_names는 개별 레이블의 이름을 나타냅니다.
- feature_names는 피처의 이름을 나타냅니다.
- DESCR은 데이터 세트에 대한 설명과 각 피처의 설명을 나타냅니다.
data,target은 넘파이 배열(ndarray)타입이며, target_names, feature_names는 넘파이 배열 또는 파이썬 리스트(list)입니다. DESCR은 스트링 타입입니다.
피처의 데이터 값을 반환받기 위해서는 내장 데이터 세트 API를 호출한 뒤에 그 Key 값을 지정하면 됩니다.

728x90
반응형
'머신러닝 (Machine Learning) > python Scikit-learn library' 카테고리의 다른 글
Model Selection 모듈(학습/테스트 분리,교차검증) (0) | 2021.02.10 |
---|---|
사이킷런으로 데이터 전처리(결손값,인코딩,스케일) (0) | 2021.02.07 |
사이킷런 기반 프레임워크(2) 사이킷런의 주요 모듈 (0) | 2021.02.07 |
사이킷런 기반 프레임워크(1) Estimator, fit(), predict() 메서드 (0) | 2021.02.07 |
사이킷런 특징과 설치법 (0) | 2021.02.07 |