데이터마이닝/텍스트마이닝

자연어 처리 관련 라이브러리 및 패키지

DS지니 2021. 12. 15. 11:09
728x90
반응형

1. Tensorflow(텐서플로우)

2015년 구글이 공개한 머신러닝 오픈소스 라이브러리이다. 아나콘다에 기본적으로 설치되어있지 않아 별도의 pip 설치가 필요하다.

# 아나콘다 프롬프트 또는 명령 프롬프트에 설치
pip install tensorflow

# 프롬프트에서 version 확인
ipython
import tensorflow as tf
tf.__version__

 

2. Keras(케라스)

케라스는  딥러닝 프레임워크인 텐서플로우에 대한 추상화된 API를 제공한다. 

케라스는 백엔드로 텐서플로우를 사용하며, 좀 더 쉽게 딥 러닝을 사용할 수 있게 해준다. 즉, 텐서플로우 간편 버전!

케라스 또한 텐서플로우와 같은 방식으로 별도의 pip 설치가 필요하다.

pip install keras

 

 

3. Gensim(젠심)

젠심은 머신러닝을 사용해 토픽모델링, Word2Vec과 같은 자연어 처리를 수행할 수 있게 해주는 오픈 소스 라이브러리이다. 별도의 pip 설치가 필요하다.

pip install gensim

 

 

4. Scikit-learn(사이킷런)

사이킷런은 파이썬 머신러닝 라이브러리이다. 나이브 베이즈 분류, 서포트 벡터 머신 등 다양한 머신러닝 모듈을 불러올 수 있고, 머신러닝 연습을 위한 다양한 자체 데이터를 제공한다. 아나콘다 설치 시 자동으로 설치 된다. 

# 아나콘다 설치가 되어있지 않은 경우 따로 설치 할 수 있다.
pip install scikit-learn

# 버전확인
ipython
import sklearn
sklearn.__verison__

 

 

5. NLTK(엔엘티케이)

NLTK는 자연어 처리를 위한 파이썬 패키지이다. 아나콘다 설치 시 기본적으로 설치가 된다.

#아나콘다 미설치 시 따로 설치 가능
pip install nltk

#버전확인
ipython
import nltk
nlkt.__version__

NLTK의 기능을 제대로 사용하기 위해서는 여러 데이터를 추가적으로 설치해야 하는데, 아래 코드를 실행하면 NLTK 실습에 필요한 각종 패키지와 코퍼스를 다운로드 할 수 있다.

nltk.download()

NLTK는 각 실습마다 필요한 데이터가 있는데, 만약 이러한 데이터가 잘 설치되어 있지 않은 경우, 코드 실행 시 Error가 나타난다. 만약 설치 시 에러가 나타난다면 NLTK 깃헙 또는 공식사이트에서 수동설치를 진행하고 정해진 경로(윈도우 : C:\nltk_data또는 D:\nltk_data) 에 위치시키면 된다.

 

https://github.com/nltk/nltk_data

 

GitHub - nltk/nltk_data: NLTK Data

NLTK Data. Contribute to nltk/nltk_data development by creating an account on GitHub.

github.com

 

 

6. KoNLPy(코엔엘파이)

Konlpy는 한국어 자연어 처리를 위한 형태소 분석기 패키지이다. 프롬프트에서 pip 설치가 가능하지만, 윈도우의 경우 Java JDK, JPype(Java와 Python 연결 역할) 설치 등이 따로 필요하다.

728x90
반응형