본문 바로가기
Study (Data Science)/NLP

Transformer 4 - GPT / BERT / 그 외 파생모델들

by 콜라찡 2023. 3. 14.

GPT(Generative Pre-trained Transformer)

  • 언어모델(Language Model)
  • 마지막 단어를 생성해내는 것을 잘해서 문장 생성에 뛰어남
  • 단방향 attention을 사용
  • Transformer의 Decoder를 사용

https://ratsgo.github.io/nlpbook/docs/language_model/bert_gpt/#gpt

 

 

 

BERT(Bidirectional Encoder Representations from Transformers)

  • 마스크 언어모델(Masked Language Model)
  • 문장 중간의 빈칸에 들어갈 단어를 잘찾아서 문장의 의미를 추출하는데 뛰어남
  • 양방향 attention을 사용
  • Transformer의 Encoder를 사용

https://ratsgo.github.io/nlpbook/docs/language_model/bert_gpt/#gpt

 

https://ratsgo.github.io/nlpbook/docs/language_model/bert_gpt/#gpt

 

BERT & GPT

pratical tips for Natural Language Processing

ratsgo.github.io


그 외 변형모델

 

Transformer-XL : 트랜스포머의 문장길이가 512-1024정도만 처리할 수 있어서, 더 긴 문장을 처리하도록 만든 모델

Reformer : 트랜스포머의 연산량을 혁신적으로 개선한 모델

이 외 : XLNet, ELECTRA, RoBERTa, GPT-3.

728x90

댓글