머신러닝 (Machine Learning)/python Scikit-learn library

사이킷런 기반 프레임워크(3) 사이킷런에 내장된 예제 데이터 세트

DS지니 2021. 2. 7. 18:54
728x90
반응형

내장된 예제 데이터 세트

사이킷런에는 별도의 외부 웹사이트에서 데이터 세트를 내려받을 필요 없이 예제로 활용할 수 있는 간단하면서도 좋은 데이터 세트가 내장되어 있습니다. 이 데이터는 datasets 모듈에 있는 여러 API를 호출해 만들 수 있습니다.

 

<지도학습/비지도학습>

 

# 지도학습 (분류와 회귀)을 연습하귀 위한 예제용도의 데이터 세트
# 분류 (Classification)
datasets.load_breast_cancer() # 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트
datasets.load_digits() # 0에서 9까지 숫자의 이미지 픽셀 데이터 세트
datasets.load_iris() # 붓꽃에 대한 피처를 가진 데이터 세트
# 회귀 (Regression)
datasets.load_boston() # 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트
datasets.load_diabetes() # 당뇨 데이터 세트
view raw gistfile1.txt hosted with ❤ by GitHub
# 비지도 학습 (분류와 클러스터링)을 위한 표본 데이터 생성기
datasets.make_classifications() # 분류를 위한 데이터 세트를 만듭니다.
# 특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성해 줍니다.
datasets.make_blobs() # 클러스터링을 위한 데이터 세트를 무작위로 생성해 줍니다.
# 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 쉽게 만들어 줍니다.
view raw gistfile2.txt hosted with ❤ by GitHub

 

<fetch>

fetch 계열의 명령은 데이터의 크기가 커서 패키지에 처음부터 저장돼 있지 않고 인터넷에서 내려받아 홈 디렉터리 아래의 scikit_learn_data라는 서브 디렉터리에 저장한 후 추후 불러들이는 데이터입니다. 따라서 최초 사용 시에 인터넷에 연결돼 있지 않으면 사용할 수 없습니다.

 

fetch_covtype() # 회귀 분석용 토지 조사 자료
fetch_20newsgroupw() # 뉴스 그룹 텍스트 자료
fetch_olivtti_faces() # 얼굴 이미지 자료
fetch_lfw_people() # 얼굴 이미지 자료
fetch_lfw__pairs() # 얼굴 이미지 자료
fetch_rcv() # 로이터 뉴스 말뭉치
fetch_mldata() # ML 웹사이트에서 다운로드
view raw gistfile1.txt hosted with ❤ by GitHub

지도학습 예제 데이터의 구성

  • data는 피처의 데이터 세트를 가리킵니다.
  • target은 분류 시 레이블 값, 회귀일 때는 숫자 결과값 데이터 세트입니다.
  • target_names는 개별 레이블의 이름을 나타냅니다.
  • feature_names는 피처의 이름을 나타냅니다.
  • DESCR은 데이터 세트에 대한 설명과 각 피처의 설명을 나타냅니다.

 

data,target은 넘파이 배열(ndarray)타입이며, target_names, feature_names는 넘파이 배열 또는 파이썬 리스트(list)입니다. DESCR은 스트링 타입입니다.

피처의 데이터 값을 반환받기 위해서는 내장 데이터 세트 API를 호출한 뒤에 그 Key 값을 지정하면 됩니다.

728x90
반응형