728x90 분류 전체보기143 SCARF) SELF-SUPERVISED CONTRASTIVE LEARNINGUSING RANDOM FEATURE CORRUPTION (2022.03) Keyword Paper SCARF: SELF-SUPERVISED CONTRASTIVE LEARNING USING RANDOM FEATURE CORRUPTION Dara Bahri / Google / 2022.05 https://arxiv.org/pdf/2106.15147.pdf (Github address) Abstract 기존의 연구들은 괄목할만한 성과가 있었음에도 불구하고 (e.g. autoencoder), domain의 바운더리에서 벗어나질 못했다. 실제 세상에서 tabular 한 데이터에도 도메인 상관없이 범용적으로 쓸 수 있는 모델이 없었다. SCARF는 입력 데이터의 일부 특징을 무작위로 선택하여 해당 특징들의 확률 분포에서 샘플링한 값으로 대체하여 입력 데이터의 뷰를 생성하는 방법 실제 7.. 2023. 3. 24. 수렴되지 않는 이유.. Hyperparameter 튜닝: 모델의 학습이 잘 되지 않는 경우, 먼저 Hyperparameter를 조정해보는 것이 좋습니다. 예를 들어, 학습률, 배치 크기, 최적화 알고리즘 등을 변경하여 성능이 개선되는지 확인해볼 수 있습니다. 또한, Contrastive Learning에서는 negative sample의 개수와 temperature parameter도 중요한 hyperparameter입니다. 이러한 hyperparameter를 변경하여 모델의 학습이 개선되는지 확인해보는 것이 좋습니다. Data Augmentation 적용: Contrastive Learning에서 Data Augmentation은 중요한 역할을 합니다. 이는 모델이 다양한 변형된 입력 데이터를 통해 더욱 강건하게 학습할 수 .. 2023. 3. 23. CLEP) Exploiting Negative Preference in Content-based MusicRecommendation with Contrastive Learning (2022.07) Keyword Paper Exploiting Negative Preference in Content-based MusicRecommendation with Contrastive Learning Minju Park/SNU/2022.07 https://arxiv.org/pdf/2207.13909.pdf Points 추천은 좋아하는 것을 제시하는 것보다 싫어하는 것을 제시하지 않는 것이 더 중요하다. 즉, recall이 아니라 False Positive Rate가 더 중요하다. CLEP-N가 FPR 부문에서 우수하다. 여기서는 추천까지 3단계를 나누어서 설명했고, 이 중 CLEP에 비중을 두고 있다. 세 개의 임베딩으로 거리와 마진을 구해낸다. Feature Exracting SimCLR :performs c.. 2023. 3. 22. BERT 2023. 3. 22. CLMR) Contrastive Learning of Musical Representations (2021.03) Keyword Paper Contrastive Learning of Musical Representations Janne Spijkervet / Univ. of Amsterdam / 2021.03 https://arxiv.org/pdf/2103.09410.pdf https://github.com/Spijkervet/CLMR Points Self-supervised Wav파일을 SimCLR에 적용시킴. Used dataset MagnaTagATune Million Song Dataset. Model CLMR증강 무작위로 잘라서 : Randomly cropping a segment from an audio clip. 속도나 피치를 뒤틀어 증강하고 : Applying random speed and pitch .. 2023. 3. 16. NNCLR) Nearest-Neighbor Contrastive Learning of Visual Representations (InfoNCE / 2021.10) Keyword NNCLR InfoNCE Paper With a Little Help from My Friends: Nearest-Neighbor Contrastive Learning of Visual Representations Debidatta Dwibedi / Google / 2021.10 https://arxiv.org/pdf/2104.14548.pdf https://github.com/MalteEbner/NNCLR Points Self-supervised learning algorithm NNCLR(NearestNeighbor Contrastive Learning of visual Representations) 을 제시함 같은 데이터에서 추출한 점을 positive라고 하는 것이 아니라, 이에 근.. 2023. 3. 15. Triplet Loss (FaceNet / 2015.03) Triplet Loss Paper FaceNet: A Unified Embedding for Face Recognition and Clustering Florian Schroff / Google / 2015.03 https://arxiv.org/pdf/1503.03832.pdf https://github.com/davidsandberg/facenet Points Unified system으로 using embeddings generated by the same network architecture에서 can perform multiple tasks할 수 있게 되었음. 일타삼피 (세가지 기능). 상호작용을 단순화할 수 있고 효율적임. 학습에 triplet loss를 사용하여 fast convergence .. 2023. 3. 15. Transformer 4 - GPT / BERT / 그 외 파생모델들 GPT(Generative Pre-trained Transformer) 언어모델(Language Model) 마지막 단어를 생성해내는 것을 잘해서 문장 생성에 뛰어남 단방향 attention을 사용 Transformer의 Decoder를 사용 BERT(Bidirectional Encoder Representations from Transformers) 마스크 언어모델(Masked Language Model) 문장 중간의 빈칸에 들어갈 단어를 잘찾아서 문장의 의미를 추출하는데 뛰어남 양방향 attention을 사용 Transformer의 Encoder를 사용 https://ratsgo.github.io/nlpbook/docs/language_model/bert_gpt/#gpt BERT & GPT prati.. 2023. 3. 14. Transformer 3 - Residential Add / Normalization Residual Connection 2015 ResNet에서 소개된 잔차연결을 적용함. ResNet 잠깐 알아보기 Q9. 상식적으로 56개의 레이어를 갖는 네트워크는 20개의 레이어를 갖는 네트워크보다 성능이 좋아야 합니다. 하지만 그렇지 않았죠! 이유가 무엇인가요? >>네트워크가 깊어질 수록 Optimize(Train)하는 것이 어렵기 때문에, 얕은 네트워크가 더 좋은 성능을 보이게 된다. Q10. Residual Block은 굉장히 간단한 수식으로 표현이 가능합니다. 수식을 적어보세요. >>y = f(x) + x https://itrepo.tistory.com/36 (7) ResNet (Residual Connection) ResNet (2015)¶ ResNet은 2015년도 ILSVRC 에서 우승을.. 2023. 3. 14. Transformer 2 - Multi Head Attention / Scaled Dot-Product Attention / Masking / Position-wise Feed Forward Network / Query, Key, Value 잠깐! 잊어버리니깐, 다시 한 번 더.. 트랜스포머 모델이란? Encoder는 input sequence를 continuous한 representation으로 바꾸고, Decoder는 이 representation을 output sequence로 바꾼다. 최종 Output은 Probability가 나옴! 먼저 0. Inputs을 embedding 후 positional encoding 하고 1. Encoder 돌리고 x 6번 Multi-Head Attention 잔차 Add + Normalization ---------------- FFW layer 잔차 Add + Normalization 2. Decoder 돌리고 x 6번 Masked - Multi-Head Attention (현재 위치보다 더 뒤에 .. 2023. 3. 14. 이전 1 2 3 4 5 6 7 ··· 15 다음 728x90