'데이터마이닝/텍스트마이닝' 카테고리의 글 목록

보호되어 있는 글입니다.

데이터마이닝/텍스트마이닝 2022.05.13

[텍스트 전처리] 원-핫 인코딩 (One-Hot Encoding)

공부내용 참고사이트 : 위키독스 딥러닝을 이용한 자연어 처리 입문 https://wikidocs.net/21698 컴퓨터는 텍스트보다 숫자를 더 잘 처리한다. 그렇기 때문에 텍스트 전처리와 토큰화를 진행했다면 이를 인덱스로 맵핑(mapping)시키는 작업이 필요하다. 가장 기본적인 인코딩 방법으로는 단어마다 고유의 정수를 매핑하는 정수 인코딩이 있다. 정수인코딩을 완료하면, 각 정수를 고유한 벡터로 바꾸는 작업이 필요한데 이 작업을 임베딩(Embedding)이라고 한다. 단어 벡터를 얻는 방법은 크게 원-핫 인코딩과 워드 임베딩이 있는데, 주로 워드 임베딩이 사용된다. *원본 문장 -> 전처리, 토큰화 -> 단어집합 만들기 -> 정수 인코딩(숫자) -> 원 핫 인코딩(벡터) 단어 벡터화 방법 중 하나인 ..

데이터마이닝/텍스트마이닝 2021.12.27

[텍스트 전처리] 정수 인코딩(Encoding)

공부내용 참고사이트 : 위키독스 딥러닝을 이용한 자연어 처리 입문 https://wikidocs.net/21698 컴퓨터는 텍스트보다 숫자를 더 잘 처리한다. 그렇기 때문에 텍스트 전처리와 토큰화를 진행했다면 이를 인덱스로 맵핑(mapping)시키는 작업이 필요하다. 가장 기본적인 인코딩 방법으로는 단어마다 고유의 정수를 매핑하는 정수 인코딩이 있다. 정수인코딩을 완료하면, 각 정수를 고유한 벡터로 바꾸는 작업이 필요한데 이 작업을 임베딩(Embedding)이라고 한다. 단어 벡터를 얻는 방법은 크게 원-핫 인코딩과 워드 임베딩이 있는데, 주로 워드 임베딩이 사용된다. 먼저 정수 인코딩 방법에 대해 알아보자. 정수인코딩을 하는 방법으로 Counter, NLTK(FreqDist), enumerate, Ke..

데이터마이닝/텍스트마이닝 2021.12.20

[텍스트 전처리] 정제, 정규화

공부내용 참고사이트 : 위키독스 딥러닝을 이용한 자연어 처리 입문 https://wikidocs.net/21698 *텍스트 전처리 - 용도에 맞게 텍스트를 사전에 처리하는 작업 Corpus(말뭉치)에서 용도에 맞게 토큰을 분류하는 작업을 토큰화(tokenization)라고 한다. 만약 정제되지 않은 코퍼스 그대로 토큰화를 진행한다면 원하는 결과를 얻는데 어려움이 있을 수 있다. 전처리를 통해 상황과 목적에 맞게 원본 데이터를 갈고 닦아준다면 좀 더 유의미한 결과를 얻을 수 있을 것이다. 텍스트 전처리 중 정제(Cleaning)와 정규화(Normalization)에 대해 알아보자. 텍스트 전처리 정제 정규화 - 등장 빈도가 적은 단어 제거 - 길이가 짧은 단어 제거 - 불용어 제거 - 어간추출과 표제어추출..

데이터마이닝/텍스트마이닝 2021.12.15

자연어 처리 관련 라이브러리 및 패키지

1. Tensorflow(텐서플로우) 2015년 구글이 공개한 머신러닝 오픈소스 라이브러리이다. 아나콘다에 기본적으로 설치되어있지 않아 별도의 pip 설치가 필요하다. # 아나콘다 프롬프트 또는 명령 프롬프트에 설치 pip install tensorflow # 프롬프트에서 version 확인 ipython import tensorflow as tf tf.__version__ 2. Keras(케라스) 케라스는 딥러닝 프레임워크인 텐서플로우에 대한 추상화된 API를 제공한다. 케라스는 백엔드로 텐서플로우를 사용하며, 좀 더 쉽게 딥 러닝을 사용할 수 있게 해준다. 즉, 텐서플로우 간편 버전! 케라스 또한 텐서플로우와 같은 방식으로 별도의 pip 설치가 필요하다. pip install keras 3. Gens..

데이터마이닝/텍스트마이닝 2021.12.15

텍스트 마이닝 분석 절차

1. 텍스트 마이닝 분석 프로세스 텍스트 마이닝 절차 내용 1. 텍스트 데이터 수집 - Crawling - Web 데이터 수집(SNS/블로그/카페 등) - 빅카인즈(BIG Kinds) 뉴스 데이터 제공 사이트 - NDSL : 국내외 논문, 특허, 연구보고서 통합 정보제공 사이트 2. 텍스트 전처리 - 용도에 맞게 텍스트를 사전에 처리하는 작업 - 오탈자 제거, 띄어쓰기 교정, 불용어 제거 등 - 정제(cleaning), 정규화(normalization) : 가지고 있는 말뭉치(corpus)로부터 노이즈 데이터를 제거, 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦. - 어간추출(Stemming), 표제어추출(Lemmatizaiton) : 단어의 핵심 부분만 추출, 유사한 단어들에서 대표 단어를 ..

데이터마이닝/텍스트마이닝 2021.12.08

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

DS Note

데이터마이닝/텍스트마이닝 6

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역