NLP/BERT
GPT-1, BERT
GPT-1
self-attention을 12겹 쌓은 모델
encoding시에 masked self attention 사용한다.
BERT(pre-training of Deep Bidirectional Transformers for language understanding)
language model은 단지 하나의 context만 이용한다.
- Masked Language Model(MLM)
- 각각의 단어를 MASK로 치환하고, 해당 MASK를 맞추도록 모델을 학습시킨다.
GPT 모델과 다르게 BERT는 전체 주어진 단어를 attention에 쓴다.(?)