본문 바로가기

딥러닝/nlp 논문

(10)
Word2vec 논문 리뷰 4. Results 단어들간 유사성을 측정하는 데 여러 방법이 존재한다.(semantic relationship or syntactic relationship) 4.1 task description semantic question과 syntactic question을 test set으로 구성한다. 비슷한 단어의 쌍들을 직접 찾아 연결하여 question들을 만든다. 랜덤하게 두 단어를 한 쌍으로 선택해서 총 2.5K개의 질문을 만들었다. 모든 질문에 대해 정확도를 측정했다: 예측한 결과 벡터에 대해 가장 가까운 단어가 질문과 완벽하게 일치할 때 정답으로 처리한다. 4.2 maximization of accuracy 구글 뉴스의 word vector를 training set으로 사용했고 6B개의 token..
NNLM, RNNLM, Word2vec wikidocs.net/45609 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 딥러닝을 이용한 자연어 처리 입문 페이지를 많이 참고했습니다. 1. Language model 단어 시퀀스(문장)에 확률을 할당하는 모델 이전 단어들이 주어졌을 때 다음 단어를 예측하도록 함. 통계를 이용한 방법과 인공 신경망을 이용한 방법이 있음. (1) 통계적 언어 모델(SLM, statistical language model) 문장 학습 이후에 이전 단어 이후에 특정 단어가 나타날 확률을 조건부 확률로 계산함. -> 희소 문제(sparsity problem) 발생 모든 단어들을 독립적으로 계산하면 유사한 단어들에 대한 정보를 놓치게 되고, 이를 모두 계산하기 위해선 방대한 양의 데이터가 필요함..