728x90
반응형

분류 전체보기 180

토픽모델링 TerminatedWorkerError

이전에는 잘 돌아가던 토픽모델링에서 갑자기 에러가 남. TerminatedWorkerError: A worker process managed by the executor was unexpectedly terminated. This could be caused by a segmentation fault while calling the function or by an excessive memory usage causing the Operating System to kill the worker. 구글링하니 거의 scikit-learn 모델 관련이었고, 파라미터의 n_jobs 값을 조정하면 해결되어 보였음. 1)토픽모델링 gensim.models.ldamodel.LdaModel 과 2)토픽모델링 시각화 pyLD..

[텍스트 전처리] 원-핫 인코딩 (One-Hot Encoding)

공부내용 참고사이트 : 위키독스 딥러닝을 이용한 자연어 처리 입문 https://wikidocs.net/21698 컴퓨터는 텍스트보다 숫자를 더 잘 처리한다. 그렇기 때문에 텍스트 전처리와 토큰화를 진행했다면 이를 인덱스로 맵핑(mapping)시키는 작업이 필요하다. 가장 기본적인 인코딩 방법으로는 단어마다 고유의 정수를 매핑하는 정수 인코딩이 있다. 정수인코딩을 완료하면, 각 정수를 고유한 벡터로 바꾸는 작업이 필요한데 이 작업을 임베딩(Embedding)이라고 한다. 단어 벡터를 얻는 방법은 크게 원-핫 인코딩과 워드 임베딩이 있는데, 주로 워드 임베딩이 사용된다. *원본 문장 -> 전처리, 토큰화 -> 단어집합 만들기 -> 정수 인코딩(숫자) -> 원 핫 인코딩(벡터) 단어 벡터화 방법 중 하나인 ..

[텍스트 전처리] 정수 인코딩(Encoding)

공부내용 참고사이트 : 위키독스 딥러닝을 이용한 자연어 처리 입문 https://wikidocs.net/21698 컴퓨터는 텍스트보다 숫자를 더 잘 처리한다. 그렇기 때문에 텍스트 전처리와 토큰화를 진행했다면 이를 인덱스로 맵핑(mapping)시키는 작업이 필요하다. 가장 기본적인 인코딩 방법으로는 단어마다 고유의 정수를 매핑하는 정수 인코딩이 있다. 정수인코딩을 완료하면, 각 정수를 고유한 벡터로 바꾸는 작업이 필요한데 이 작업을 임베딩(Embedding)이라고 한다. 단어 벡터를 얻는 방법은 크게 원-핫 인코딩과 워드 임베딩이 있는데, 주로 워드 임베딩이 사용된다. 먼저 정수 인코딩 방법에 대해 알아보자. 정수인코딩을 하는 방법으로 Counter, NLTK(FreqDist), enumerate, Ke..

[텍스트 전처리] 정제, 정규화

공부내용 참고사이트 : 위키독스 딥러닝을 이용한 자연어 처리 입문 https://wikidocs.net/21698 *텍스트 전처리 - 용도에 맞게 텍스트를 사전에 처리하는 작업 Corpus(말뭉치)에서 용도에 맞게 토큰을 분류하는 작업을 토큰화(tokenization)라고 한다. 만약 정제되지 않은 코퍼스 그대로 토큰화를 진행한다면 원하는 결과를 얻는데 어려움이 있을 수 있다. 전처리를 통해 상황과 목적에 맞게 원본 데이터를 갈고 닦아준다면 좀 더 유의미한 결과를 얻을 수 있을 것이다. 텍스트 전처리 중 정제(Cleaning)와 정규화(Normalization)에 대해 알아보자. 텍스트 전처리 정제 정규화 - 등장 빈도가 적은 단어 제거 - 길이가 짧은 단어 제거 - 불용어 제거 - 어간추출과 표제어추출..

자연어 처리 관련 라이브러리 및 패키지

1. Tensorflow(텐서플로우) 2015년 구글이 공개한 머신러닝 오픈소스 라이브러리이다. 아나콘다에 기본적으로 설치되어있지 않아 별도의 pip 설치가 필요하다. # 아나콘다 프롬프트 또는 명령 프롬프트에 설치 pip install tensorflow # 프롬프트에서 version 확인 ipython import tensorflow as tf tf.__version__ 2. Keras(케라스) 케라스는 딥러닝 프레임워크인 텐서플로우에 대한 추상화된 API를 제공한다. 케라스는 백엔드로 텐서플로우를 사용하며, 좀 더 쉽게 딥 러닝을 사용할 수 있게 해준다. 즉, 텐서플로우 간편 버전! 케라스 또한 텐서플로우와 같은 방식으로 별도의 pip 설치가 필요하다. pip install keras 3. Gens..

colab(코랩)에서 Mecab 포함한 Konlpy 사용하기

윈도우에서 Mecab을 설치하고자 할 때, 방법은 있으나 조금 번거롭다. 1) Java JDK 2) mecab-ko 3) mecab-ko-dic 4) mecab-python 5) JPype.. 모두 잘 설치해 주어야 한다. * window에서 konlpy mecab 설치 블로그 참고 : https://lsjsj92.tistory.com/612 자주 사용하는 컴퓨터에는 이미 설치가 되어있지만, 갑자기 새로운 컴퓨터에서 일회성으로 mecab을 사용하고자 할 때가 있어 colab으로 Mecab을 사용하는 방법을 구글링해보았다. 방법1) 코랩에 bash 셸로 명령어 입력해 설치하기 *참고 블로그 https://sanghyu.tistory.com/170 Colab에서 konlpy와 mecab 설치하기 nlp초심자..

카테고리 없음 2021.12.14

텍스트 마이닝 분석 절차

1. 텍스트 마이닝 분석 프로세스 텍스트 마이닝 절차 내용 1. 텍스트 데이터 수집 - Crawling - Web 데이터 수집(SNS/블로그/카페 등) - 빅카인즈(BIG Kinds) 뉴스 데이터 제공 사이트 - NDSL : 국내외 논문, 특허, 연구보고서 통합 정보제공 사이트 2. 텍스트 전처리 - 용도에 맞게 텍스트를 사전에 처리하는 작업 - 오탈자 제거, 띄어쓰기 교정, 불용어 제거 등 - 정제(cleaning), 정규화(normalization) : 가지고 있는 말뭉치(corpus)로부터 노이즈 데이터를 제거, 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦. - 어간추출(Stemming), 표제어추출(Lemmatizaiton) : 단어의 핵심 부분만 추출, 유사한 단어들에서 대표 단어를 ..

Gephi 설치와 오류

Gephi를 사용하게 되었다. Gephi는 NetBeans 플랫폼에서 Java로 작성된 오픈 소스 네트워크 분석 및 시각화 소프트웨어 패키지이다. 꼭지점(node)과 점(edge)들로 이루어진 그래프를 그리고 분석할 수 있으며, 그래프 데이터를 표현(representation)하고 구조(structures), 모양(shapes), 색상(colors)을 조작해 숨겨진 패턴을 나타낼 수 있다. 지파이? 게피? 게파이 등등 다양한 방법으로 부르던데, 외국인 유튜브 영상을 보니 Gephi(게 -퓌)라 부른다. STEP 1. Java SE Runtime Environment(JRE) 설치 먼저 컴퓨터에 자바가 설치 되어있는지 확인해야한다. 링크 : https://www.java.com/ko/download/ 첨에..

표본 추출 방법

표본 추출 기법 표본조사의 중요한 점은 모집단을 대표할 수 있는 표본 추출이므로 표본 추출 방법에 따라 분석결과의 해석은 큰 차이가 발생한다. 확률적 표본 추출 : 모집단의 모든 기본단위가 선택 될 수 있는 동등한 기회를 의미하는 무작위 추출과정 단순무작위추출법(simple random sampling) 계통추출법(systematic sampling) 군집추출법(cluster random sampling) 층화추출법(stratified random sampling) 비확률적 표본 추출 : 일반화에 어려움이 있음 편의 추출법(convenience sampling, availability) 눈덩이 추출법 또는 연대 추출법(snowball sampling, word mouth) 할당추출법(quota sampl..

[SQL오류] Recursive query aborted after 1001 iterations.

문제발생 WITH RECURSIVE TIME AS ( SELECT 0 AS HOUR UNION ALL SELECT HOUR + 1 FROM TIME) SELECT HOUR, COUNT(HOUR)-1 FROM ( SELECT HOUR FROM TIME UNION ALL SELECT HOUR(DATETIME) FROM ANIMAL_OUTS) VALID GROUP BY HOUR 오류) Recursive query aborted after 1001 iterations. Try increasing @@cte_max_recursion_depth to a larger value. 해결 1001번 반복 이후부터 리컬시브 쿼리가 유실되었다는 뜻. HOUR+1(0부터 1씩 증가) 입력후 반복을 언제까지 할 것인지 지정해 ..

기술통계 vs 추리통계

1. 기술통계(Descriptive Statistics) Discriptive : 묘사하는, 그려서 설명하는 기술통계의 기술의 뜻은 서술하다 기술하다의 그 기술이다. 기술통계란? - 수집한 데이터를 요약하고 묘사 설명해서 내린 통계 기법 기술통계 기법 2가지 - 집중화 경향와 분산도 집중화 경향(Central tendency) : 수집한 데이터에서 대표하는 값이 무엇인지 또는 어떤 값에 집중되어 있는지를 다루는 기법. ex) 평균(mean), 중앙값(median), 최빈값(mode) 분산도(Variation) : 데이터가 전반적으로 어떻게 분포,분산되어 있는지(뭉쳐있는지, 퍼져있는지) 설명하는 방법. ex) 표준편차(standard deviation),사분위(quartile) 기술통계 기법을 통해 수집한..

통계 기본 단어 정리

1. 모집단과 모수 & 표본집단과 표본통계량 (Population, Parameter / Sample, Sample Statistic) 모집단 (Population) = 전체값 = 평소에 잘 알수가 없음. = 전체 집단의 모든 데이터를 알지 못하더라도, 수학적으로 그 분포를 기술할 수 있는 특성값 (=모수)들을 안다면 추측가능함. 모수(Parameter)의 종류 -평균 -분산/표준편차 -분위수(중위값,1분위수,4분위수 등) -모비율 등 표본집단 (Sample) = 모수를 추정하기 위해 모집단에서 추출한 샘플(일부) = 현실적으로 생각하면 모집단 전체에 대해 검사하기에는 비용이 너무 많이 들기 때문에 표본집단을 추출해 모수를 추정함 = 표본은 여러개 가능 = 그리고 매번 추출할 때마다 그 값이 달라짐. (..

[tensorflow, keras] 딥러닝 기본 코드(2-3,4) 모델 컴파일(손실함수, 최적화, 지표), 모델 학습 평가 예측

[youtube] Deep Learning Full Tutorial Course using TensorFlow and Keras - 이수안컴퓨터연구소 참고 🧡목차 딥러닝 구조 및 학습 2. 모델(Model) 3) 모델 컴파일 - 손실함수(loss function) - 최적화(optimization) - 지표(metrics) 4) 모델 학습, 평가 및 예측 - fit() - evaluate() - predict() 딥러닝 구조 및 학습 딥러닝 구조와 학습에 필요한 요소 모델(네트워크)를 구성하는 레이어(layer) 입력 데이터와 그에 대한 목적(결과) 학습시에 사용할 피드백을 정의하는 손실 함수(loss function) 학습 진행 방식을 결정하는 옵티마이저(optimizer) 2. 모델(Model) 딥러..

728x90
반응형