머신러닝 (Machine Learning)/python Scikit-learn library

사이킷런 기반 프레임워크(3) 사이킷런에 내장된 예제 데이터 세트

DS지니 2021. 2. 7. 18:54
728x90
반응형

내장된 예제 데이터 세트

사이킷런에는 별도의 외부 웹사이트에서 데이터 세트를 내려받을 필요 없이 예제로 활용할 수 있는 간단하면서도 좋은 데이터 세트가 내장되어 있습니다. 이 데이터는 datasets 모듈에 있는 여러 API를 호출해 만들 수 있습니다.

 

<지도학습/비지도학습>

 

 

<fetch>

fetch 계열의 명령은 데이터의 크기가 커서 패키지에 처음부터 저장돼 있지 않고 인터넷에서 내려받아 홈 디렉터리 아래의 scikit_learn_data라는 서브 디렉터리에 저장한 후 추후 불러들이는 데이터입니다. 따라서 최초 사용 시에 인터넷에 연결돼 있지 않으면 사용할 수 없습니다.

 


지도학습 예제 데이터의 구성

  • data는 피처의 데이터 세트를 가리킵니다.
  • target은 분류 시 레이블 값, 회귀일 때는 숫자 결과값 데이터 세트입니다.
  • target_names는 개별 레이블의 이름을 나타냅니다.
  • feature_names는 피처의 이름을 나타냅니다.
  • DESCR은 데이터 세트에 대한 설명과 각 피처의 설명을 나타냅니다.

 

data,target은 넘파이 배열(ndarray)타입이며, target_names, feature_names는 넘파이 배열 또는 파이썬 리스트(list)입니다. DESCR은 스트링 타입입니다.

피처의 데이터 값을 반환받기 위해서는 내장 데이터 세트 API를 호출한 뒤에 그 Key 값을 지정하면 됩니다.

728x90
반응형