KNU 한국어 감성사전
KNU 한국어 감성사전은 표준 국어 대사전의 뜻풀이의 감성을 Bi-LSTM으로 긍정 뜻풀이와 부정 뜻풀이로 분류했다.
긍정으로 분류된 뜻풀이에서는 긍정에 대한 감성 어휘를, 부정으로 분류된 뜻풀이에서는 부정에 대한 감성 어휘를 1 gram, 2 gram, 어구, 문형 등의 형태로 추출했다. 그 외에도 SenticNet, 감정동사, 감정사전, 신조어, 이모티콘으로 다양한 감성 어휘를 확장했다.
이렇게 구축된 감성사전은 특정 도메인의 감성 사전을 구축하는 데 기반이 되고 감성분석, 기계 학습을 위한 학습 데이터 세트의 구축에 용이하다.
ex) '슬프다'라는 단어가 제품 리뷰에 있으면 부정적인 리뷰라고 생각할 수 있으나, 영화 리뷰에 있으면 영화에 대한 부정적인 평가라고 생각하기 어렵다.
감성사전 구축 방안
(1) 뜻풀이 감성 분류 모델 생성
표준국어대사전을 구성하는 모든 단어와 뜻풀이(Gloss) 수집, 정제
- 형용사, 부사, 동사, 명사인 단어들에 대해 수행
뜻풀이 감성 분류
- 하나의 단어에 여러개의 뜻풀이가 있을 때 모든 뜻풀이의 감성을 확인
- 뜻풀이가 긍정을 나타내면 뜻풀이에서 긍정에 관한 감성 어휘를 추출
- 뜻풀이가 부정을 나타내면 뜻풀이에서 부정에 관한 감성 어휘를 추출
뜻풀이 감성 분류 모델 생성
- 3명의 투표자의 투표 결과에 따라 감성을 수작업으로 라벨링하여 train set 구축
- 하나의 단어에서 뜻풀이 문장 g1, g2, g3, g4, g5가 있다고 하자
- G1: 긍정 뜻풀이의 집합 {g1, g2}, G0: 중립 뜻풀이의 집합 {g4, g5}, G-1: 부정 뜻풀이의 집합 {g3}
- g1, g2에 긍정의 성향을 띄는 1-gram, 2-gram, 어구, 문형이 하나 이상은 있어야 한다.
- gn = {wn1, ..., wnk} 일 때 뜻풀이 문장 중 감성 어휘 집합을 구축한다. Gsentiword = {wn2, wn3}
- Bi-LSTM 모델을 구축한다. 양방향성을 띄기 때문에 중요한 정보가 뒤에 있는 한국어 문맥 탐지에 적합한 모델이다.
- 뜻풀이를 긍, 부정으로 분류하여 감성을 예측하는 모델을 만든다.
(2) 뜻풀이에서 긍/부정에 맞는 감성어휘 추출
1-gram, 2-gram, 어구, 문형에 해당하는 감성어휘를 수작업으로 추출한다.
(3) 외부 소스에서 감성 어휘 추출
표준국어대사전 외에도 감정 동사목록, SentiWordNet, SenticNet, 감정단어사전, 신조어, 이모티콘 등에서도 감성 어휘를 추출한다.
- SentiWordNet, SenticNet: 유의어 집단의 단어를 긍정, 부정, 객관성에 대한 감성 정도를 부여한 감성사전, 번역하여 감성 어휘를 추출했다.
- 감정동사, 감성단어사전: 제시된 감정 동사에서 감성 어휘 추출
- 신조어, 이모티콘: 위키백과에 등재된 단어들을 추가했다.
'딥러닝 > nlp 논문' 카테고리의 다른 글
BERT(Bidirectional Encoder Representation from Transformer) (0) | 2021.10.24 |
---|---|
Transformer: multihead attention을 중심으로 (0) | 2021.07.25 |
Attention 논문 정리: Neural Machine Translation by Jointly Learning to Align and Translate (0) | 2021.04.05 |
Attention 모델이란? (0) | 2021.04.04 |
Seq2Seq (Sequence-to-Sequence) 이란? (0) | 2021.04.04 |