카테고리 없음

colab(코랩)에서 Mecab 포함한 Konlpy 사용하기

DS지니 2021. 12. 14. 16:00
728x90
반응형

윈도우에서 Mecab을 설치하고자 할 때, 방법은 있으나 조금 번거롭다.

1) Java JDK 2) mecab-ko 3) mecab-ko-dic 4) mecab-python 5) JPype.. 모두 잘 설치해 주어야 한다.

* window에서 konlpy mecab 설치 블로그 참고 : https://lsjsj92.tistory.com/612

 

 

자주 사용하는 컴퓨터에는 이미 설치가 되어있지만, 갑자기 새로운 컴퓨터에서 일회성으로 mecab을 사용하고자 할 때가 있어 colab으로 Mecab을 사용하는 방법을 구글링해보았다.

 

 


 

 

방법1)  코랩에 bash 셸로 명령어 입력해 설치하기

*참고 블로그 https://sanghyu.tistory.com/170

 

Colab에서 konlpy와 mecab 설치하기

nlp초심자로 작년 상반기에 진행했던 프로젝트에서 사용했던 mecab은 설치가 까다로웠다. 그래서 colab에서 쉽게 사용하였는데 설치했던 과정을 소개한다. (링크에서 코드 확인가능) 1. bash 셸로 명

sanghyu.tistory.com

 

 

 

 

방법2)  SOMJANG 님 github 오픈소스 활용하기

! git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh
from konlpy.tag import Mecab
mecab = Mecab()
print(mecab.morphs("사과와 바나나 그리고 포도를 좋아합니다")

 

* somjang님 github 주소 : https://github.com/SOMJANG/Mecab-ko-for-Google-Colab

 

GitHub - SOMJANG/Mecab-ko-for-Google-Colab: Use Mecab Library(NLP Library) in Google Colab

Use Mecab Library(NLP Library) in Google Colab. Contribute to SOMJANG/Mecab-ko-for-Google-Colab development by creating an account on GitHub.

github.com

 

 

* 참고 블로그 :  https://somjang.tistory.com/entry/Google-Colab%EC%97%90%EC%84%9C-Mecab-koMecab-ko-dic-%EC%89%BD%EA%B2%8C-%EC%82%AC%EC%9A%A9%ED%95%98%EA%B8%B0

 

Google Colab에서 Mecab-ko-dic 쉽게 사용하기

요즘 멀티캠퍼스에서 자연어처리에 대한 교육을 받으며 사용했던 은전한닢 프로젝트 라이브러리인 Mecab-ko-dic을 Google Colab에서 간단한 몇가지 명령어를 통하여 설치하고 사용할 수 있도록 Shell S

somjang.tistory.com

 

 

 

추가) 이용자 사전(mecab-co-dic) 새로운 단어 추가하기

1) Local

 

C:/mecab/user-dic.nnp.scv 로컬에서 사전 추가하기. (+ powershell 업데이트 필수)

 

Local에 있는 C:/mecab/user-dic/nnp.scv에 이전에 새로운 단어들을 추가해놓은 것이 있었다. 

*mecab사전 우선순위 조정하는 법 (Local) 참고 블로그 : https://joyhong.tistory.com/136

 

"아프리카돼지열병" 이라는 단어를 추가해 놓아서, 붙여서 사용할 시 하나의 단어로 인식한다.

Jupyter notebook에서의 결과이다.

# Jupyter notebook(Local) 에서의 Mecab
from konlpy.tag import Mecab
mecab = Mecab(dicpath="C:\\mecab\\mecab-ko-dic") #사전의 path 지정
mecab.morphs('아프리카 돼지 열병 아프리카돼지열병')

 

 

 

2) Colab

 

colab에서 mecab-co-dic에 새로운 단어를 추가하고자 할 경우엔 구글 드라이브를 사용하였다.

1) 구글 드라이브에 mecab-ko-dic 파일 넣기

2) colab에서 drive mount 로 구글드라이브 연동하기

 

나는 local에서 사용하던 사전 파일을 드라이브에 추가하였다. 원래 가지고 있던 사진이 그대로 적용된다.

mecab 다운로드 사이트에서 mecab-ko-dic 최신 파일 다운받을 수 있다.

https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/

 

# Colab에서의 Mecab
from konlpy.tag import Mecab
mecab = Mecab(dicpath="/content/drive/MyDrive/mecab/mecab-ko-dic") #구글드라이브 사전 path지정
mecab.morphs("아프리카 돼지 열병 아프리카돼지열병")

 

 

* Colab에서 사용자 사전 추가하기

참고 블로그 : https://somjang.tistory.com/entry/Google-Colab%EC%97%90%EC%84%9C-mecab-ko-dic-%EC%82%AC%EC%9A%A9%EC%9E%90-%EC%82%AC%EC%A0%84-%EC%B6%94%EA%B0%80%ED%95%98%EA%B8%B0

 

Google Colab에서 mecab-ko-dic 사용자 사전 추가하기!

from konlpy.tag import Mecab mecab = Mecab() print(mecab.pos("솜씨좋은장씨의 개발블로그")) 최근 Google Colab에서 mecab에 사용자 사전을 추가하는 방법에 대해서 문의 하시는 분이 많기도 하셨고 저도 mec..

somjang.tistory.com

 
728x90
반응형