본문 바로가기
728x90

word2vec2

Transformer까지의 모델들 5분에 정리하기 (word2vec / seq2seq / attention) word2vec 인코더만 붙여놓은 상태 빈칸맞추기, 어울리는 단어 찾기 할 . 수있음 seq2seq 인코더와 디코더를 붙였음 단어가 아닌 문장의 의미를 이해하여 latent space에 매칭시켜 디코더로 다른언어 번역이 용이 latent space 의 크기가 고정되어있다는 한계가 있었음 인코더의 성능이 좋아지면, AI의 이해력이 좋아지고, 디코더의 성능이 좋아지면, AI의 표현력이 좋아진다. 그럼, 그냥 인코더를 여러개 쓰고, 디코더를 여러개쓰면 이해력과 표현력이 좋아지지 않을까? 어텐션 넣어서? 잠깐, Attention이란? rough하게 그려보면, 우리나라 사람들은 너무 잘 이해할 수 있음. I'll book the hotel within 3 days. 1.2. 3. 4. 5. 6. 7. 8. 나는 .. 2023. 12. 6.
전처리, 분산표현, 임베딩, 토큰화 자연어 (Natural) : 인류의 언어. 200가지의 언어 중 40가지 정도가 문자를 가짐. 문맥 의존 언어 (context sensitive language) parsing이 어려움. 문맥, 현실세계의 이해를 필요로 할 때가 많아 단순 파싱이 되지 않음. 착한 영희 친구를 parsing 하여 다 떨어뜨리면, 영희가 착한건가 친구가 착한건가.. She drove down the street in her car. 그녀는 그녀의 차를 타고 길을 운전한건가, 차안에 있는 길을 운전한건가. 인공어 (Artificial) : 프로그래밍 언어. C언어, 파스칼 등등. 문맥 자유 언어 (context free language) parsing이 너무 잘됨. 문맥이 자유로우니 그냥 나누면 끝. 1. 전처리 자연어의 N.. 2023. 2. 14.
728x90