본문 바로가기

딥러닝/nlp 논문

KNU 한국어 감성사전: 논문 리뷰

KNU 한국어 감성사전

KNU 한국어 감성사전은 표준 국어 대사전뜻풀이의 감성을 Bi-LSTM으로 긍정 뜻풀이부정 뜻풀이로 분류했다.

긍정으로 분류된 뜻풀이에서는 긍정에 대한 감성 어휘를, 부정으로 분류된 뜻풀이에서는 부정에 대한 감성 어휘를 1 gram, 2 gram, 어구, 문형 등의 형태로 추출했다. 그 외에도 SenticNet, 감정동사, 감정사전, 신조어, 이모티콘으로 다양한 감성 어휘를 확장했다. 

이렇게 구축된 감성사전은 특정 도메인의 감성 사전을 구축하는 데 기반이 되고 감성분석, 기계 학습을 위한 학습 데이터 세트의 구축에 용이하다. 

ex) '슬프다'라는 단어가 제품 리뷰에 있으면 부정적인 리뷰라고 생각할 수 있으나, 영화 리뷰에 있으면 영화에 대한 부정적인 평가라고 생각하기 어렵다.

 

감성사전 구축 방안

(1) 뜻풀이 감성 분류 모델 생성

표준국어대사전을 구성하는 모든 단어와 뜻풀이(Gloss) 수집, 정제

  • 형용사, 부사, 동사, 명사인 단어들에 대해 수행

뜻풀이 감성 분류

  • 하나의 단어에 여러개의 뜻풀이가 있을 때 모든 뜻풀이의 감성을 확인
  • 뜻풀이가 긍정을 나타내면 뜻풀이에서 긍정에 관한 감성 어휘를 추출
  • 뜻풀이가 부정을 나타내면 뜻풀이에서 부정에 관한 감성 어휘를 추출

뜻풀이 감성 분류 모델 생성

  • 3명의 투표자의 투표 결과에 따라 감성을 수작업으로 라벨링하여 train set 구축
  • 하나의 단어에서 뜻풀이 문장 g1, g2, g3, g4, g5가 있다고 하자 
  • G1: 긍정 뜻풀이의 집합 {g1, g2}, G0: 중립 뜻풀이의 집합 {g4, g5}, G-1: 부정 뜻풀이의 집합 {g3}
  • g1, g2에 긍정의 성향을 띄는 1-gram, 2-gram, 어구, 문형이 하나 이상은 있어야 한다.
  • gn = {wn1, ..., wnk} 일 때 뜻풀이 문장 중 감성 어휘 집합을 구축한다. Gsentiword = {wn2, wn3}
  • Bi-LSTM 모델을 구축한다. 양방향성을 띄기 때문에 중요한 정보가 뒤에 있는 한국어 문맥 탐지에 적합한 모델이다.
  • 뜻풀이를 긍, 부정으로 분류하여 감성을 예측하는 모델을 만든다. 

 

(2) 뜻풀이에서 긍/부정에 맞는 감성어휘 추출

1-gram, 2-gram, 어구, 문형에 해당하는 감성어휘를 수작업으로 추출한다. 

 

(3) 외부 소스에서 감성 어휘 추출

표준국어대사전 외에도 감정 동사목록, SentiWordNet, SenticNet, 감정단어사전, 신조어, 이모티콘 등에서도 감성 어휘를 추출한다. 

  • SentiWordNet, SenticNet: 유의어 집단의 단어를 긍정, 부정, 객관성에 대한 감성 정도를 부여한 감성사전, 번역하여 감성 어휘를 추출했다.
  • 감정동사, 감성단어사전: 제시된 감정 동사에서 감성 어휘 추출
  • 신조어, 이모티콘: 위키백과에 등재된 단어들을 추가했다.