Transformer 3 - Residential Add / Normalization

Residual Connection

2015 ResNet에서 소개된 잔차연결을 적용함.

ResNet 잠깐 알아보기

Q9. 상식적으로 56개의 레이어를 갖는 네트워크는 20개의 레이어를 갖는 네트워크보다 성능이 좋아야 합니다. 하지만 그렇지 않았죠! 이유가 무엇인가요?

>>네트워크가 깊어질 수록 Optimize(Train)하는 것이 어렵기 때문에, 얕은 네트워크가 더 좋은 성능을 보이게 된다.

Q10. Residual Block은 굉장히 간단한 수식으로 표현이 가능합니다. 수식을 적어보세요.

>>y = f(x) + x

https://itrepo.tistory.com/36

(7) ResNet (Residual Connection)

ResNet (2015)¶ ResNet은 2015년도 ILSVRC 에서 우승을 차지한 모델입니다. 총 152개의 레이어를 가진 Ultra-deep한 네트워크입니다. Difficulty of Training Deep CNN¶ 2014년도에 CNN의 Depth와 Structure을 폭발적으로 발

itrepo.tistory.com

Layer Normalization

Normalization이란, 값의 분포를 고르게 하는 과정

Q7. 데이터 Feature의 Scale을 직접적으로 조정하는 방법은 무엇인가요? 그 이유로 Feature Scaling이라고 불리기도 합니다!

>>정규화(Normalization)

Q8. Batch Normalization과 Layer Normalization의 차이점을 적어주세요. (대표적인 한 가지만 적어도 충분합니다!)

>> Batch Normalization은 정규화를 Batch 차원에서 진행하는 것이고 Layer Normalization은 정규화를 Feature 차원에서 진행하는 것이다.

2023.01.11 - [DL] - Regularization, Normalization

Regularization, Normalization

Normalization(정규화) Scaling input features so that they have similar ranges or distributions. - 데이터 전처리 과정 중 하나. - 데이터의 형태를 좀 더 의미있고, 학습에 적합하게 만드는 과정 - z-score, minmax scaler로 v

kolazzing.com

Learning Rate Schedular

warmup_step까지는 lrate가 선형적으로 증가하고,이후에는 step_num에 비례해 점차 감소하는 모양을 보인다.

이와 같은 Learning Rate를 사용하면 초반 학습이 잘되지 않은 상태에서의 학습 효율이 늘어나고,

어느 정도 학습이 된 후반에는 디테일한 튜닝을 통해 Global Minimum을 찾아가는 효과가 있음.

학습의 초반과 후반은 warmup_steps 값을 기준으로 한다.

Weight Sharing

하나의 Weight를 두 개 이상의 레이어가 동시에 사용하도록 하는 것.

가볍게 생각했을 때에는 비효율적일 것으로 보이나,

실제로는 튜닝해야 할 파라미터 수가 감소하기 때문에 학습에 더 유리하며 자체적으로 Regularization 되는 효과가 있음.

(ResNet이 증명한 것처럼 많은 Weight가 곧 성능으로 이어지지 않고, 외려Optimization에서 불리한 경향을 보인다는 것을 보여줌)

(트랜스포머에서는 Decoder의 Embedding 레이어와 출력층 Linear 레이어의 Weight를 공유하는 방식을 사용했습니다. 소스 Embedding과 타겟 Embedding도 논문상에서는 공유했지만 이는 언어의 유사성에 따라서 선택적으로 사용합니다. 만일 소스와 타겟 Embedding 층까지 공유한다면 3개의 레이어가 동일한 Weight를 사용하는 셈이죠.

또한 출력층 Linear 레이어와 Embedding 레이어의 Feature 분포가 다르므로 Embedding 된 값에 의 제곱근 값을 곱해줍니다. 이는 분포를 맞춰줌과 동시에 Positional Encoding이 Embedding 값에 큰 영향을 미치는 것을 방지해 줍니다.) - from. Aiffel LMS

728x90

저작자표시 비영리 변경금지 (새창열림)

'Study (Data Science) > NLP' 카테고리의 다른 글

BERT (0)	2023.03.22
Transformer 4 - GPT / BERT / 그 외 파생모델들 (0)	2023.03.14
Transformer 2 - Multi Head Attention / Scaled Dot-Product Attention / Masking / Position-wise Feed Forward Network / Query, Key, Value (0)	2023.03.14
Transformer 1 - Positional Encoding (0)	2023.03.09
모델 발전과정 3 - GNMT (Google's Seq2seq 8 layers w. Residual) (0)	2023.02.28

AI를 모르고서야 어찌

Transformer 3 - Residential Add / Normalization

Residual Connection

ResNet 잠깐 알아보기

Layer Normalization

Learning Rate Schedular

Weight Sharing

'Study (Data Science) > NLP' 카테고리의 다른 글

댓글

티스토리툴바

Transformer 3 - Residential Add / Normalization

Residual Connection

ResNet 잠깐 알아보기

Layer Normalization

Learning Rate Schedular

Weight Sharing

'Study (Data Science) > NLP' 카테고리의 다른 글

관련글

댓글

티스토리툴바