728x90
반응형

데이터마이닝/텍스트마이닝 6

[텍스트 전처리] 원-핫 인코딩 (One-Hot Encoding)

공부내용 참고사이트 : 위키독스 딥러닝을 이용한 자연어 처리 입문 https://wikidocs.net/21698 컴퓨터는 텍스트보다 숫자를 더 잘 처리한다. 그렇기 때문에 텍스트 전처리와 토큰화를 진행했다면 이를 인덱스로 맵핑(mapping)시키는 작업이 필요하다. 가장 기본적인 인코딩 방법으로는 단어마다 고유의 정수를 매핑하는 정수 인코딩이 있다. 정수인코딩을 완료하면, 각 정수를 고유한 벡터로 바꾸는 작업이 필요한데 이 작업을 임베딩(Embedding)이라고 한다. 단어 벡터를 얻는 방법은 크게 원-핫 인코딩과 워드 임베딩이 있는데, 주로 워드 임베딩이 사용된다. *원본 문장 -> 전처리, 토큰화 -> 단어집합 만들기 -> 정수 인코딩(숫자) -> 원 핫 인코딩(벡터) 단어 벡터화 방법 중 하나인 ..

[텍스트 전처리] 정수 인코딩(Encoding)

공부내용 참고사이트 : 위키독스 딥러닝을 이용한 자연어 처리 입문 https://wikidocs.net/21698 컴퓨터는 텍스트보다 숫자를 더 잘 처리한다. 그렇기 때문에 텍스트 전처리와 토큰화를 진행했다면 이를 인덱스로 맵핑(mapping)시키는 작업이 필요하다. 가장 기본적인 인코딩 방법으로는 단어마다 고유의 정수를 매핑하는 정수 인코딩이 있다. 정수인코딩을 완료하면, 각 정수를 고유한 벡터로 바꾸는 작업이 필요한데 이 작업을 임베딩(Embedding)이라고 한다. 단어 벡터를 얻는 방법은 크게 원-핫 인코딩과 워드 임베딩이 있는데, 주로 워드 임베딩이 사용된다. 먼저 정수 인코딩 방법에 대해 알아보자. 정수인코딩을 하는 방법으로 Counter, NLTK(FreqDist), enumerate, Ke..

[텍스트 전처리] 정제, 정규화

공부내용 참고사이트 : 위키독스 딥러닝을 이용한 자연어 처리 입문 https://wikidocs.net/21698 *텍스트 전처리 - 용도에 맞게 텍스트를 사전에 처리하는 작업 Corpus(말뭉치)에서 용도에 맞게 토큰을 분류하는 작업을 토큰화(tokenization)라고 한다. 만약 정제되지 않은 코퍼스 그대로 토큰화를 진행한다면 원하는 결과를 얻는데 어려움이 있을 수 있다. 전처리를 통해 상황과 목적에 맞게 원본 데이터를 갈고 닦아준다면 좀 더 유의미한 결과를 얻을 수 있을 것이다. 텍스트 전처리 중 정제(Cleaning)와 정규화(Normalization)에 대해 알아보자. 텍스트 전처리 정제 정규화 - 등장 빈도가 적은 단어 제거 - 길이가 짧은 단어 제거 - 불용어 제거 - 어간추출과 표제어추출..

자연어 처리 관련 라이브러리 및 패키지

1. Tensorflow(텐서플로우) 2015년 구글이 공개한 머신러닝 오픈소스 라이브러리이다. 아나콘다에 기본적으로 설치되어있지 않아 별도의 pip 설치가 필요하다. # 아나콘다 프롬프트 또는 명령 프롬프트에 설치 pip install tensorflow # 프롬프트에서 version 확인 ipython import tensorflow as tf tf.__version__ 2. Keras(케라스) 케라스는 딥러닝 프레임워크인 텐서플로우에 대한 추상화된 API를 제공한다. 케라스는 백엔드로 텐서플로우를 사용하며, 좀 더 쉽게 딥 러닝을 사용할 수 있게 해준다. 즉, 텐서플로우 간편 버전! 케라스 또한 텐서플로우와 같은 방식으로 별도의 pip 설치가 필요하다. pip install keras 3. Gens..

텍스트 마이닝 분석 절차

1. 텍스트 마이닝 분석 프로세스 텍스트 마이닝 절차 내용 1. 텍스트 데이터 수집 - Crawling - Web 데이터 수집(SNS/블로그/카페 등) - 빅카인즈(BIG Kinds) 뉴스 데이터 제공 사이트 - NDSL : 국내외 논문, 특허, 연구보고서 통합 정보제공 사이트 2. 텍스트 전처리 - 용도에 맞게 텍스트를 사전에 처리하는 작업 - 오탈자 제거, 띄어쓰기 교정, 불용어 제거 등 - 정제(cleaning), 정규화(normalization) : 가지고 있는 말뭉치(corpus)로부터 노이즈 데이터를 제거, 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦. - 어간추출(Stemming), 표제어추출(Lemmatizaiton) : 단어의 핵심 부분만 추출, 유사한 단어들에서 대표 단어를 ..

728x90
반응형