베이지안 머신러닝 모델
- 모델 파라미터를 고정된 값이 아닌 불확실성(uncertainty)을 가진 확률 변수로 보는 것, 데이터를 관찰하면서 업데이트되는 값으로 보는 것
베이즈 정리(Bayes' theorem)
prior(prior probability, 사전 확률)
- 데이터를 관찰하기 전 파라미터 공간에 주어진 확률 분포
- 확률분포 먼저 고정 후 데이터 받음.
likelihood(가능도, 우도)
- 파라미터의 분포 가 정해졌을 때 라는 데이터가 관찰될 확률
- prior 분포를 고정한 후, 주어진 파라미터 분포에 대해서 우리가 갖고 있는 데이터가 얼마나 '그럴듯한지' 계산하는것
- p(X=x∣θ) , L(θ∣x)
- 입력 데이터의 집합을 , 라벨들의 집합을 라고 할 때, likelihood는 파라미터와 입력 데이터가 주어졌을 때 출력값(라벨)의 확률 분포, 즉 가 됨.
- 임의의 데이터 포인트가 모델 함수에서 멀어질수록 데이터의 likelihood는 기하급수적으로 감소
- 결국 데이터 포인트들의 likelihood 값을 크게 하는 모델을 찾는 것이 목표가됨
- 계산법
- 먼저 가진 데이터포인트(x,y)들이 서로 독립적이고 같은 확률분포를 가진다고 가정한다. (i.i.d, independent, identically distributed)
- 모두 독립이므로, 데이터 전체의 likehood = 데이터포인트 각각에 likehood를 모두 곱한것.
- 실제로 밑에서 MLE 할 때에는 미분계산의 편의를 위해 양변에 log를 씌워 log likelihood에 대해 구함.
MLE (maximum likelihood estimation, 최대 가능도 추정)
- likelihood가 높다는 것은 곧 우리가 지정한 파라미터 조건에서 데이터가 관찰될 확률이 높다는 것이고, 데이터의 분포를 모델이 잘 표현하는 것. 이에따라 데이터들의 likelihood 값을 최대화하는 방향으로 모델을 학습시키는 방법
- 계산법
- (ML: maximum likelihood) : likelihood를 최대화하는 파라미터를 찾는 과정
- 한계
- 식처럼 데이터셋 행렬 X, 라벨벡터 y가 있어야, 즉 MLE의 최적해는 오로지 관측된 데이터 값에만 의존함.
- 간단하긴 하나, 관측데이터에 outlier가 많으면 모델의 안정성이 떨어짐.
- 보완책으로 MAP 사용
posterior(posterior probability, 사후 확률)
- prior의 반대개념. 데이터를 관찰한 후 계산되는 확률
- 데이터 집합 라미터 분포
MAP (maximum a posteriori estimation,최대 사후 확률 추정)
- 하지만 ML의 이유 자체가
- 최적의 파라미터 : θMAP
- 장점
- 정규화의 효과가 있다.
- 추가된 노란색부분의 항이 정규화의 norm의 역할을 해줌. 원래 norm이 손실함수에 대한 파라미터 크기에 대한 식을 더해 파라미터가 큰 값으로 튀는 것을 방지하고 오버피팅을 막았다면, MAP는 파라미터 분포를 평균, 정규분포가 (0,0)으로 놓아서 각 파라미터들이 0에 가까운 값으로 학습되도록 제약조건을 건 셈.
- 가 작을수록, 즉 파라미터 분포의 표준편차를 작게 잡을수록 파라미터 값에 대한 제약 조건을 강하게 걸어주는 것과 같음. 즉 모델의 유연성은 감소함.
- MLE보다 안정적이다. (outlier 가 있어도 변동이 크지 않다는 뜻)
- 하기 그림상으로도 outlier에 orange 선이 영향을 덜 받았다.
- MAP가 MLE에 비해 likelihood값은 작지만 (원래는 크게하는 것이 목적이었음)(=negative log likelihood값은 크지만), outlier가 추가되었을 때 모델 파라미터 변화는 MLE 보다 작다.
- 정규화의 효과가 있다.
728x90
'Study (Data Science) > DL' 카테고리의 다른 글
추천시스템 - ALS (0) | 2023.01.26 |
---|---|
추천 시스템 알고리즘/ MF / CSR (0) | 2023.01.25 |
확률과 통계 (0) | 2023.01.16 |
Entropy / Cross - Entropy (0) | 2023.01.12 |
Regression (회귀) / 이진분류는 회귀인가 분류인가? (0) | 2023.01.12 |
댓글