본문 바로가기
Study (Data Science)/DL

MLE, MAP / prior, posterior, likelihood

by 콜라찡 2023. 1. 18.

베이지안 머신러닝 모델

  • 모델 파라미터를 고정된 값이 아닌 불확실성(uncertainty)을 가진 확률 변수로 보는 것, 데이터를 관찰하면서 업데이트되는 값으로 보는 것

베이즈 정리(Bayes' theorem)

prior(prior probability, 사전 확률

  • 데이터를 관찰하기 전 파라미터 공간에 주어진 확률 분포
  • 확률분포 먼저 고정 후 데이터 받음. 

 

likelihood(가능도, 우도)

  • 파라미터의 분포 가 정해졌을 때 라는 데이터가 관찰될 확률
  • prior 분포를 고정한 후, 주어진 파라미터 분포에 대해서 우리가 갖고 있는 데이터가 얼마나 '그럴듯한지' 계산하는것
  • p(X=x∣θ) , L(θ∣x)
  • 입력 데이터의 집합을 , 라벨들의 집합을 라고 할 때, likelihood는 파라미터와 입력 데이터가 주어졌을 때 출력값(라벨)의 확률 분포, 즉 가 됨.
  • 임의의 데이터 포인트가 모델 함수에서 멀어질수록 데이터의 likelihood는 기하급수적으로 감소
  • 결국 데이터 포인트들의 likelihood 값을 크게 하는 모델을 찾는 것이 목표가됨
  • 계산법
    • 먼저 가진 데이터포인트(x,y)들이 서로 독립적이고 같은 확률분포를 가진다고 가정한다. (i.i.d, independent, identically distributed)
    • 모두 독립이므로, 데이터 전체의 likehood = 데이터포인트 각각에 likehood를 모두 곱한것.
    • 실제로 밑에서 MLE 할 때에는 미분계산의 편의를 위해 양변에 log를 씌워 log likelihood에 대해 구함.

 

MLE (maximum likelihood estimation, 최대 가능도 추정)

  • likelihood가 높다는 것은 곧 우리가 지정한 파라미터 조건에서 데이터가 관찰될 확률이 높다는 것이고, 데이터의 분포를 모델이 잘 표현하는 것. 이에따라 데이터들의 likelihood 값을 최대화하는 방향으로 모델을 학습시키는 방법
  • 계산법
    • (ML: maximum likelihood) : likelihood를 최대화하는 파라미터를 찾는 과정

로그 양변에 씌우고
θ ML 정의하고 시작
마지막, 정리된 식

  • 한계
    • 식처럼 데이터셋 행렬 X, 라벨벡터 y가 있어야, 즉 MLE의 최적해는 오로지 관측된 데이터 값에만 의존함.
    • 간단하긴 하나, 관측데이터에 outlier가 많으면 모델의 안정성이 떨어짐.
    • 보완책으로 MAP 사용 

posterior(posterior probability, 사후 확률)

  • prior의 반대개념. 데이터를 관찰한 후 계산되는 확률
  • 데이터 집합 라미터  분포 

 

 MAP (maximum a posteriori estimation,최대 사후 확률 추정)

  • 하지만 ML의 이유 자체가
    • 최적의 파라미터 : θMAP

MAP 최적해 공식
(비교참고) 위의 MLE 최적해 공식

  • 장점
    • 정규화의 효과가 있다. 
      • 추가된 노란색부분의 항이 정규화의 norm의 역할을 해줌. 원래 norm이 손실함수에 대한 파라미터 크기에 대한 식을 더해 파라미터가 큰 값으로 튀는 것을 방지하고 오버피팅을 막았다면, MAP는 파라미터 분포를 평균, 정규분포가 (0,0)으로 놓아서 각 파라미터들이 0에 가까운 값으로 학습되도록 제약조건을 건 셈.
      • 가 작을수록, 즉 파라미터 분포의 표준편차를 작게 잡을수록 파라미터 값에 대한 제약 조건을 강하게 걸어주는 것과 같음. 즉 모델의 유연성은 감소함.
    • MLE보다 안정적이다. (outlier 가 있어도 변동이 크지 않다는 뜻)
      • 하기 그림상으로도 outlier에 orange 선이 영향을 덜 받았다. 
      • MAP가 MLE에 비해 likelihood값은 작지만 (원래는 크게하는 것이 목적이었음)(=negative log likelihood값은 크지만), outlier가 추가되었을 때 모델 파라미터 변화는 MLE 보다 작다.

 

728x90

'Study (Data Science) > DL' 카테고리의 다른 글

추천시스템 - ALS  (0) 2023.01.26
추천 시스템 알고리즘/ MF / CSR  (0) 2023.01.25
확률과 통계  (0) 2023.01.16
Entropy / Cross - Entropy  (0) 2023.01.12
Regression (회귀) / 이진분류는 회귀인가 분류인가?  (0) 2023.01.12

댓글