728x90
반응형
1. 텍스트 마이닝 분석 프로세스
텍스트 마이닝 절차 | 내용 |
1. 텍스트 데이터 수집 | - Crawling - Web 데이터 수집(SNS/블로그/카페 등) - 빅카인즈(BIG Kinds) 뉴스 데이터 제공 사이트 - NDSL : 국내외 논문, 특허, 연구보고서 통합 정보제공 사이트 |
2. 텍스트 전처리 | - 용도에 맞게 텍스트를 사전에 처리하는 작업 - 오탈자 제거, 띄어쓰기 교정, 불용어 제거 등 - 정제(cleaning), 정규화(normalization) : 가지고 있는 말뭉치(corpus)로부터 노이즈 데이터를 제거, 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦. - 어간추출(Stemming), 표제어추출(Lemmatizaiton) : 단어의 핵심 부분만 추출, 유사한 단어들에서 대표 단어를 추출 |
3. 토큰화 | - Tokenization - 주어진 코퍼스에서 토큰(token)이라 불리는 단어로 나누는 작업(공백기준, 형태소기준, 명사기준) - 기준은 분석 방법에 따라 다름 - ex)감성분석의 경우, 감성을 나타내는 품사가 동사, 형용사 쪽에 가깝기 때문에 형태소 분석기를 사용해 동사, 형용사 위주로 추출 |
4. 특징 값 추출 | - '중요한 단어'를 선별하는 과정 - '중요한 단어'로서 특징은 적은 수의 문서에 분포되어 있어야 하고, 문서 내에서도 빈번하게 출현해야 한다. (차별성 있는 중요한 단어) - 특정 텍스트를 통해 문서를 구분 짓는 것이기 때문에 어떤 단어가 모든 문서에 분포되어 있다면 이는 차별성 없는 단어이다. |
5. 데이터분석 | - 머신러닝 : Linear Regression, Logistic Regression, Random Forest, XGBoost 등 - 딥러닝 : CNN, RNN, LSTM, GRU 등 |
* 불용어 제거 : 데이터에서 큰 의미가 없는 단어 제거
* 노이즈 데이터 : 예)나는 소년입니다. (나=소년, 같은 의미를 한 단어 묶어주기)
* 정규화 : 예)갔다, 가다, 갑니다 (가다 로 통합)
2. 토큰화(tokenize)의 종류
*토큰화를 하는 이유 : 일상에 사용하는 자연어를 컴퓨터가 이해할 수 있게 변경하기 위해
종류 | 내용 |
단어(word) 단위 | 텍스트를 단어로 나누고 각 단어를 하나의 벡터로 변환 |
문자(character) 단위 | 텍스트를 문자로 나누고 각 문자를 하나의 벡터로 변환 |
n-gram 단위 | 텍스트에서 단어나 문자의 n-gram을 추출하여 n-gram을 하나의 벡터로 변환 |
* n-gram : n개의 연속된 단어를 하나로 취급하는 방법. (n=2인경우 bi-gram 단어의 개수를 뜻함)
ex) "대통령"+"후보" => "대통령 후보" (두 개의 독립된 단어로만 취급하지 않고 두 단어로 구성된 하나의 토큰을 추가해 취급)
참고
유튜브 스마트인재개발원 인쌤TV [파이썬 응용] No.2 TextMining 머신러닝 / Python Programming (by.손지영 연구원)
728x90
반응형
'데이터마이닝 > 텍스트마이닝' 카테고리의 다른 글
[형태소분석기]윈도우에서 khaiii(카카오분석기) 실행하기 (0) | 2022.05.13 |
---|---|
[텍스트 전처리] 원-핫 인코딩 (One-Hot Encoding) (0) | 2021.12.27 |
[텍스트 전처리] 정수 인코딩(Encoding) (0) | 2021.12.20 |
[텍스트 전처리] 정제, 정규화 (0) | 2021.12.15 |
자연어 처리 관련 라이브러리 및 패키지 (0) | 2021.12.15 |