텍스트 마이닝 분석 절차

데이터마이닝/텍스트마이닝

텍스트 마이닝 분석 절차

DS지니 2021. 12. 8. 11:46

728x90

1. 텍스트 마이닝 분석 프로세스

텍스트 마이닝 절차	내용
1. 텍스트 데이터 수집	- Crawling - Web 데이터 수집(SNS/블로그/카페 등) - 빅카인즈(BIG Kinds) 뉴스 데이터 제공 사이트 - NDSL : 국내외 논문, 특허, 연구보고서 통합 정보제공 사이트
2. 텍스트 전처리	- 용도에 맞게 텍스트를 사전에 처리하는 작업 - 오탈자 제거, 띄어쓰기 교정, 불용어 제거 등 - 정제(cleaning), 정규화(normalization) : 가지고 있는 말뭉치(corpus)로부터 노이즈 데이터를 제거, 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦. - 어간추출(Stemming), 표제어추출(Lemmatizaiton) : 단어의 핵심 부분만 추출, 유사한 단어들에서 대표 단어를 추출
3. 토큰화	- Tokenization - 주어진 코퍼스에서 토큰(token)이라 불리는 단어로 나누는 작업(공백기준, 형태소기준, 명사기준) - 기준은 분석 방법에 따라 다름 - ex)감성분석의 경우, 감성을 나타내는 품사가 동사, 형용사 쪽에 가깝기 때문에 형태소 분석기를 사용해 동사, 형용사 위주로 추출
4. 특징 값 추출	- '중요한 단어'를 선별하는 과정 - '중요한 단어'로서 특징은 적은 수의 문서에 분포되어 있어야 하고, 문서 내에서도 빈번하게 출현해야 한다. (차별성 있는 중요한 단어) - 특정 텍스트를 통해 문서를 구분 짓는 것이기 때문에 어떤 단어가 모든 문서에 분포되어 있다면 이는 차별성 없는 단어이다.
5. 데이터분석	- 머신러닝 : Linear Regression, Logistic Regression, Random Forest, XGBoost 등 - 딥러닝 : CNN, RNN, LSTM, GRU 등

* 불용어 제거 : 데이터에서 큰 의미가 없는 단어 제거

* 노이즈 데이터 : 예)나는 소년입니다. (나=소년, 같은 의미를 한 단어 묶어주기)

* 정규화 : 예)갔다, 가다, 갑니다 (가다 로 통합)

2. 토큰화(tokenize)의 종류

*토큰화를 하는 이유 : 일상에 사용하는 자연어를 컴퓨터가 이해할 수 있게 변경하기 위해

종류	내용
단어(word) 단위	텍스트를 단어로 나누고 각 단어를 하나의 벡터로 변환
문자(character) 단위	텍스트를 문자로 나누고 각 문자를 하나의 벡터로 변환
n-gram 단위	텍스트에서 단어나 문자의 n-gram을 추출하여 n-gram을 하나의 벡터로 변환

* n-gram : n개의 연속된 단어를 하나로 취급하는 방법. (n=2인경우 bi-gram 단어의 개수를 뜻함)

ex) "대통령"+"후보" => "대통령 후보" (두 개의 독립된 단어로만 취급하지 않고 두 단어로 구성된 하나의 토큰을 추가해 취급)

참고

유튜브 스마트인재개발원 인쌤TV [파이썬 응용] No.2 TextMining 머신러닝 / Python Programming (by.손지영 연구원)

728x90

저작자표시 (새창열림)

'데이터마이닝 > 텍스트마이닝' 카테고리의 다른 글

[형태소분석기]윈도우에서 khaiii(카카오분석기) 실행하기 (0)	2022.05.13
[텍스트 전처리] 원-핫 인코딩 (One-Hot Encoding) (0)	2021.12.27
[텍스트 전처리] 정수 인코딩(Encoding) (0)	2021.12.20
[텍스트 전처리] 정제, 정규화 (0)	2021.12.15
자연어 처리 관련 라이브러리 및 패키지 (0)	2021.12.15

현재글텍스트 마이닝 분석 절차

데이터 분석하는 지니 🏃‍♀️ https://github.com/gggggeun https://velog.io/@gggggeun1

DataFrame, regexp_replace, 쿼리 순서, 문자열 치환, TensorFlow, 카카오분석기, webdriver_manager, 설치안됨, anaconda3, chromedrivermanager, cloud, str_to_date, khaiii, 파이썬프로그램, error, SQL, CASE WHEN, 에러 error, Jupyter Notebook, Python,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

DS Note