데이터마이닝/텍스트마이닝

텍스트 마이닝 분석 절차

DS지니 2021. 12. 8. 11:46
728x90
반응형

1. 텍스트 마이닝 분석 프로세스

텍스트 마이닝 절차 내용
1. 텍스트 데이터 수집 - Crawling - Web 데이터 수집(SNS/블로그/카페 등)
- 빅카인즈(BIG Kinds) 뉴스 데이터 제공 사이트
- NDSL : 국내외 논문, 특허, 연구보고서 통합 정보제공 사이트
2. 텍스트 전처리 - 용도에 맞게 텍스트를 사전에 처리하는 작업
- 오탈자 제거, 띄어쓰기 교정, 불용어 제거
- 정제(cleaning), 정규화(normalization) : 가지고 있는 말뭉치(corpus)로부터 노이즈 데이터를 제거, 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦.
- 어간추출(Stemming), 표제어추출(Lemmatizaiton) : 단어의 핵심 부분만 추출, 유사한 단어들에서 대표 단어를 추출
3. 토큰화 - Tokenization
- 주어진 코퍼스에서 토큰(token)이라 불리는 단어로 나누는 작업(공백기준, 형태소기준, 명사기준)
- 기준은 분석 방법에 따라 다름
- ex)감성분석의 경우, 감성을 나타내는 품사가 동사, 형용사 쪽에 가깝기 때문에 형태소 분석기를 사용해 동사, 형용사 위주로 추출
4. 특징 값 추출 - '중요한 단어'를 선별하는 과정
- '중요한 단어'로서 특징은 적은 수의 문서에 분포되어 있어야 하고, 문서 내에서도 빈번하게 출현해야 한다. (차별성 있는 중요한 단어)
- 특정 텍스트를 통해 문서를 구분 짓는 것이기 때문에 어떤 단어가 모든 문서에 분포되어 있다면 이는 차별성 없는 단어이다.
5. 데이터분석 - 머신러닝 : Linear Regression, Logistic Regression, Random Forest, XGBoost 등
- 딥러닝 : CNN, RNN, LSTM, GRU 등

 

* 불용어 제거 : 데이터에서 큰 의미가 없는 단어 제거

* 노이즈 데이터 : 예)나는 소년입니다. (나=소년, 같은 의미를 한 단어 묶어주기)

* 정규화 : 예)갔다, 가다, 갑니다 (가다 로 통합)

 

 

 

2. 토큰화(tokenize)의 종류

 

*토큰화를 하는 이유 : 일상에 사용하는 자연어를 컴퓨터가 이해할 수 있게 변경하기 위해

 

종류 내용
단어(word) 단위 텍스트를 단어로 나누고 각 단어를 하나의 벡터로 변환
문자(character) 단위 텍스트를 문자로 나누고 각 문자를 하나의 벡터로 변환
n-gram 단위 텍스트에서 단어나 문자의 n-gram을 추출하여 n-gram을 하나의 벡터로 변환

 

* n-gram : n개의 연속된 단어를 하나로 취급하는 방법. (n=2인경우 bi-gram 단어의 개수를 뜻함)

ex) "대통령"+"후보" => "대통령 후보" (두 개의 독립된 단어로만 취급하지 않고 두 단어로 구성된 하나의 토큰을 추가해 취급)

 

 


 

 

 

참고

유튜브 스마트인재개발원 인쌤TV [파이썬 응용] No.2 TextMining 머신러닝 / Python Programming (by.손지영 연구원)

728x90
반응형