본문 바로가기
Study (Data Science)/NLP

Transformer까지의 모델들 5분에 정리하기 (word2vec / seq2seq / attention)

by 콜라찡 2023. 12. 6.

word2vec

인코더만 붙여놓은 상태

빈칸맞추기, 어울리는 단어 찾기 할 . 수있음

 

seq2seq

인코더와 디코더를 붙였음

단어가 아닌 문장의 의미를 이해하여 latent space에 매칭시켜 디코더로 다른언어 번역이 용이

latent space 의 크기가 고정되어있다는 한계가 있었음

 

인코더의 성능이 좋아지면, AI의 이해력이 좋아지고,
디코더의 성능이 좋아지면, AI의 표현력이 좋아진다.



그럼,

그냥 인코더를 여러개 쓰고, 디코더를 여러개쓰면

이해력과 표현력이 좋아지지 않을까? 어텐션 넣어서?



잠깐, Attention이란?

rough하게 그려보면,
우리나라 사람들은 너무 잘 이해할 수 있음.

I'll book the hotel within 3 days.
1.2.  3.     4.     5.       6.    7.    8.  
나는 삼 일 안에 그 호텔을 예약 할꺼야.
  1.   7.  8.   6.  4.     5.     3.      2.

영어 해석할 때, 왼쪽에서 오른쪽으로 순차적인 해석을 하지 않고,
이리 저리 왔다갔다 하면서 해석하는 그런 모습.
정말 이해하고 싶다면, positional encoding을 이해하길 추천.

 

 

Transformer (구글)

 

BERT : 인코더만 여러개 붙인것. 이해력 폭발함 (구글)

GPT : 디코더만 여러개 붙인것. 표현력 폭발함 (오픈ai)

인간의 언어를 다루는 데 더욱 중요한 것은 이해력이었음. 처음에는 버트의 압승.

 

그런데 버트 논문에 이런 구절이 있었음.

"AI의 부피 (파라미터갯수)를 두 배 키웠더니 성능은 5% 밖에 증가하지 않았다."

 

누가봐도 비효율적인 이 문구대로 지피티는 무식하게 부피를 키우기로 하고,

2020년, 버트보다 583배 더 큰 GPT-3을 출시. 성능은 별로 차이 없었음. (확인해볼것)

이어 챗GPT 출시, MS의 13억원 투자받음

 

 

원리는 간단했음.

어텐션, 즉 각 단어의 위치를 기반으로 단어퀴즈를 맞추던 word2vec과 비슷.

단어 가려두고 무슨 단어가 가장 잘 어울릴까에 대한 질문과 답이 있는 거대 데이터셋을 학습시킨것과 비슷.

이런 GPT에 챗을 붙여서 우리와 이야기 할 수 있게 만든 것이 챗GPT!

 

 

 

 

 

 

 

 

 

728x90

댓글