728x90
반응형

딥러닝 (Deep Learning)/NLP 자연어처리 3

텍스트 데이터 전처리 - 1) 토큰화

텍스트의 토큰화(Tokenization) 텍스트는 단어별, 문장별, 형태소별로 나눌 수 있다. 이렇게 작게 나누어진 하나의 단위를 토큰(token)이라고 한다. 그리고 입력된 긴 텍스트를 잘게 나누는 과정을 토큰화(tokenization) 라고 한다. 1) enumerate, split words = "Strawberry, Orange, Coconut, Lemon, Banana!;" for count, ele in enumerate(words[:5]): print(count, ele) >> 0 S >> 1 t >> 2 r >> 3 a >> 4 w words.split(', ') >> ['Strawberry', 'Orange', 'Coconut', 'Lemon', 'Banana!;'] 2) 정규식 사용 #..

NLP 기초 설명

0. NLP의 목표 : 유용한 업무 수행을 위해서 Natural Language(사람의 언어)를 컴퓨터가 처리하고 이해할 수 있도록 하는 것 1. NLP에 사용하는 데이터 텍스트 데이터 시계열 데이터 시퀀스 데이터 2. NLP에 사용하는 기본 딥러닝 모델 RNN(Recurrent Neural Network), 1D 컨브넷(1D Convnet) 등 (그 외 RNN을 보완한 다양한 모델이 있음.) 3. 전처리 텍스트 자료를 모았다고 해서 이를 딥러닝에 그대로 입력할 수 있는 것은 아니다. 컴퓨터 알고리즘은 수치로 된 데이터만 이해할 뿐 텍스트를 이해할 수 없기 때문이다. 따라서 텍스트를 정제하는 전처리 과정이 꼭! 필요하다. 4. NLP+Deep Learning Model 응용 - 글의 주제나 책의 저자 식..

728x90
반응형