1. Tensorflow(텐서플로우)
2015년 구글이 공개한 머신러닝 오픈소스 라이브러리이다. 아나콘다에 기본적으로 설치되어있지 않아 별도의 pip 설치가 필요하다.
# 아나콘다 프롬프트 또는 명령 프롬프트에 설치
pip install tensorflow
# 프롬프트에서 version 확인
ipython
import tensorflow as tf
tf.__version__
2. Keras(케라스)
케라스는 딥러닝 프레임워크인 텐서플로우에 대한 추상화된 API를 제공한다.
케라스는 백엔드로 텐서플로우를 사용하며, 좀 더 쉽게 딥 러닝을 사용할 수 있게 해준다. 즉, 텐서플로우 간편 버전!
케라스 또한 텐서플로우와 같은 방식으로 별도의 pip 설치가 필요하다.
pip install keras
3. Gensim(젠심)
젠심은 머신러닝을 사용해 토픽모델링, Word2Vec과 같은 자연어 처리를 수행할 수 있게 해주는 오픈 소스 라이브러리이다. 별도의 pip 설치가 필요하다.
pip install gensim
4. Scikit-learn(사이킷런)
사이킷런은 파이썬 머신러닝 라이브러리이다. 나이브 베이즈 분류, 서포트 벡터 머신 등 다양한 머신러닝 모듈을 불러올 수 있고, 머신러닝 연습을 위한 다양한 자체 데이터를 제공한다. 아나콘다 설치 시 자동으로 설치 된다.
# 아나콘다 설치가 되어있지 않은 경우 따로 설치 할 수 있다.
pip install scikit-learn
# 버전확인
ipython
import sklearn
sklearn.__verison__
5. NLTK(엔엘티케이)
NLTK는 자연어 처리를 위한 파이썬 패키지이다. 아나콘다 설치 시 기본적으로 설치가 된다.
#아나콘다 미설치 시 따로 설치 가능
pip install nltk
#버전확인
ipython
import nltk
nlkt.__version__
NLTK의 기능을 제대로 사용하기 위해서는 여러 데이터를 추가적으로 설치해야 하는데, 아래 코드를 실행하면 NLTK 실습에 필요한 각종 패키지와 코퍼스를 다운로드 할 수 있다.
nltk.download()
NLTK는 각 실습마다 필요한 데이터가 있는데, 만약 이러한 데이터가 잘 설치되어 있지 않은 경우, 코드 실행 시 Error가 나타난다. 만약 설치 시 에러가 나타난다면 NLTK 깃헙 또는 공식사이트에서 수동설치를 진행하고 정해진 경로(윈도우 : C:\nltk_data또는 D:\nltk_data) 에 위치시키면 된다.
https://github.com/nltk/nltk_data
6. KoNLPy(코엔엘파이)
Konlpy는 한국어 자연어 처리를 위한 형태소 분석기 패키지이다. 프롬프트에서 pip 설치가 가능하지만, 윈도우의 경우 Java JDK, JPype(Java와 Python 연결 역할) 설치 등이 따로 필요하다.
'데이터마이닝 > 텍스트마이닝' 카테고리의 다른 글
[형태소분석기]윈도우에서 khaiii(카카오분석기) 실행하기 (0) | 2022.05.13 |
---|---|
[텍스트 전처리] 원-핫 인코딩 (One-Hot Encoding) (0) | 2021.12.27 |
[텍스트 전처리] 정수 인코딩(Encoding) (0) | 2021.12.20 |
[텍스트 전처리] 정제, 정규화 (0) | 2021.12.15 |
텍스트 마이닝 분석 절차 (0) | 2021.12.08 |