GPT(Generative Pre-trained Transformer)
- 언어모델(Language Model)
- 마지막 단어를 생성해내는 것을 잘해서 문장 생성에 뛰어남
- 단방향 attention을 사용
- Transformer의 Decoder를 사용
BERT(Bidirectional Encoder Representations from Transformers)
- 마스크 언어모델(Masked Language Model)
- 문장 중간의 빈칸에 들어갈 단어를 잘찾아서 문장의 의미를 추출하는데 뛰어남
- 양방향 attention을 사용
- Transformer의 Encoder를 사용
https://ratsgo.github.io/nlpbook/docs/language_model/bert_gpt/#gpt
그 외 변형모델
Transformer-XL : 트랜스포머의 문장길이가 512-1024정도만 처리할 수 있어서, 더 긴 문장을 처리하도록 만든 모델
Reformer : 트랜스포머의 연산량을 혁신적으로 개선한 모델
이 외 : XLNet, ELECTRA, RoBERTa, GPT-3.
728x90
'Study (Data Science) > NLP' 카테고리의 다른 글
Transformer까지의 모델들 5분에 정리하기 (word2vec / seq2seq / attention) (0) | 2023.12.06 |
---|---|
BERT (0) | 2023.03.22 |
Transformer 3 - Residential Add / Normalization (0) | 2023.03.14 |
Transformer 2 - Multi Head Attention / Scaled Dot-Product Attention / Masking / Position-wise Feed Forward Network / Query, Key, Value (0) | 2023.03.14 |
Transformer 1 - Positional Encoding (0) | 2023.03.09 |
댓글