본문 바로가기

딥러닝/nlp 논문

(10)
BERT(Bidirectional Encoder Representation from Transformer) https://www.youtube.com/watch?v=IwtexRHoWG0&t=318s 위 동영상을 참고하여 작성했습니다. BERT Bert는 transformer의 encoder 파트로만 이루어진 모델이다. Pre - training Masked Language Model (MLM): 단어에 random하게 mask를 부여하여 학습 Next Sentence Prediction (NSP): corpus에서 sentence와 sentence가 연속된 문장인 지 학습 Fine tuning: Bert에 NLP task의 목적에 맞게 맨 마지막 layer을 쌓는 과정 Input / Output Representation Bert의 input으로 sentence를 하나 또는 여러 개 넣을 수 있다. Pre-t..
KNU 한국어 감성사전: 논문 리뷰 KNU 한국어 감성사전 KNU 한국어 감성사전은 표준 국어 대사전의 뜻풀이의 감성을 Bi-LSTM으로 긍정 뜻풀이와 부정 뜻풀이로 분류했다. 긍정으로 분류된 뜻풀이에서는 긍정에 대한 감성 어휘를, 부정으로 분류된 뜻풀이에서는 부정에 대한 감성 어휘를 1 gram, 2 gram, 어구, 문형 등의 형태로 추출했다. 그 외에도 SenticNet, 감정동사, 감정사전, 신조어, 이모티콘으로 다양한 감성 어휘를 확장했다. 이렇게 구축된 감성사전은 특정 도메인의 감성 사전을 구축하는 데 기반이 되고 감성분석, 기계 학습을 위한 학습 데이터 세트의 구축에 용이하다. ex) '슬프다'라는 단어가 제품 리뷰에 있으면 부정적인 리뷰라고 생각할 수 있으나, 영화 리뷰에 있으면 영화에 대한 부정적인 평가라고 생각하기 어렵다..
Transformer: multihead attention을 중심으로 https://www.youtube.com/watch?v=Yk1tV_cXMMU 위 동영상을 참고하여 작성했습니다. Transformer의 구조 (1) Input Embedding (2) Positional Encoding (3) Encoder > Self multihead Attention (4) Add & Normalization (5) Feed Forward Neural Network (6) Decoder > Masked multihead Attention (7) (Encoder & Decoder) Multihead Attention (8) Linear & Softmax Layer Encoder과 Decoder transformer에서 encoder와 decoder은 같은 개수로 여러 층이 쌓여 있는..
Attention 논문 정리: Neural Machine Translation by Jointly Learning to Align and Translate encoder decoder seq2seq attention (1) encoder encoder에서는 biRNN 과정을 거친다. 순방향 RNN에서는 input sequence를 앞에서부터 순서대로 읽어서 forward hidden state를 구하고, 역방향 RNN에서는 input sequence를 뒤에서부터 읽어서 backward hidden state를 계산하고 동일한 시점에 대해 forward hidden state와 backward hidden state를 concatenate 한다. j 시점에서 encoder의 hidden state인 hj는 j시점 앞, 뒤의 단어들을 모두 포함하게 된다. RNN은 최근의 단어들에 대해 더 초점을 맞추는 경향이 있기 때문에 hj는 xj 근처의 단어들을 더 많이 ..
Attention 모델이란? (배경) seq2seq 모델의 한계점 context vector의 크기가 정해져 있어서 input으로 들어온 모든 정보를 제한된 크기의 vector에 넣어야 하므로 긴 sequence가 input으로 들어왔을 때 학습이 제대로 되지 않는다는 문제가 있었다. 이를 개선한 attention 모델은 단어들의 대응 관계를 파악하는 계산 과정이 추가되어 필요한 정보에 더 잘 주목할 수 있게 된다. Attention model : seq2seq model에서 encoder과 decoder을 개선하여 위의 seq2seq의 문제점을 해결했다. (1) Encoder 개선 기존의 seq2seq 모델은 encoder을 거친 후 나온 context vector의 크기가 정해져 있다는 문제점이 있었는데, encoder의 출력을..
Seq2Seq (Sequence-to-Sequence) 이란? Seq2Seq 모델은 입력 sequence에서 다른 도메인의 sequence를 출력하는 모델로, 챗봇(Chat-bot),기계 번역(machine translation), 내용 요약(text summarization), STT(speech to text) 등에서 주로 쓰인다. Seq2Seq 모델은 encoder와 decoder로 나뉜다. encoder와 decoder는 RNN 구조이고, 그림에서는 둘 다 LSTM을 사용했다. encoder context vector decoder 입력 문장의 모든 단어를 입력받아 context vector를 만든다. encoder RNN 셀의 마지막 시점의 은닉 상태가 context vector이다. 입력 문장에 대한 정보가 압축되어 있다. context vector을 받..
LSTM (Long-Short Term Memory)이란? (배경) vanilla RNN 모델의 장기 의존성 문제(the problem of Long-Term Dependencies) 기존의 RNN 모델은 input 문장의 길이가 길어질 수록, 즉 time step이 길어질 수록 앞의 정보가 뒤로 충분히 전달되지 못한다. 긴 문장이 input으로 들어왔을 때, 앞쪽에 위치하는 단어들은 아무리 중요한 단어라고 해도 멀리 떨어진 단어를 예측하는 데 거의 영향을 주지 못한다. 이는 back propagation 관점에서 이해할 수 있다. RNN에서 gradient를 구할 때는 이전 시점들에서의 gradient들까지 time series 하게 chain rule로 곱해야 해서 이 때의 back propagation을 backpropagation through time(..
FastText tkdguq05.github.io/2020/08/14/Fasttext/ SISG를 활용한 Fasttext에 대해서 알아보자 자연어 처리 모델에 자주 사용되는 FastText를 뽀개보고 skipgram 모델과의 차이를 알아보자. tkdguq05.github.io 위 페이지를 참조하여 작성한 fasttext 논문 리뷰입니다. 이전 모델들의 한계점 각각의 단어에 독립적으로 서로 다른 벡터를 부여함으로써 단어의 morphology, 내재적인 의미를 무시함. 거대한 데이터셋과 희귀 단어에 대해 embedding 정확도가 낮아서 학습이 제대로 일어나지 않는다. FastText skip gram model을 기반으로 character 단위의 n-gram의 벡터들의 표현을 합치는 방법 하나의 단어를 n개로 잘라서 만든..