Keras Tokenizer 와 SentencePiece 비교 이해

Keras vs SentencePiece

Sentencepiece : 파일을 불러올 때 SentencePieceTrainer.Train("--input 파일명 --model_prefix=korean_spm --vocab_size= 보카사이즈") 이렇게 불러오면, prefix 단위로 토큰화, idx 매길 준비를 한다.
- 불러올 때 이미 토큰화를 내재적으로 하기때문에, 다른 두개와 달리 토큰화된 문장 list가 아니라 온전한 원문 문장 list를 매개변수로 전달함.

Sentencepiece : EncodeAsPieces() (조각으로 인코딩) 이라는 함수로 먼저 prefix 단위로 끊어 파싱한 것을 직접 for문으로 word_index 사전을 만들어 출력할 수 있다.

728x90

벡터화 발전과정 2 - soynlp (비지도학습 한국어 형태소 분석기) (0)	2023.02.20
벡터화 발전과정 (BoW/DTM/TF-IDF/SVD/LSA/LDA/토픽모델링) (0)	2023.02.18
전처리, 분산표현, 임베딩, 토큰화 (0)	2023.02.14
Chatbot (0)	2023.01.27
Ex12_ NLP / 뉴스 요약봇 (0)	2023.01.25