MLE, MAP / prior, posterior, likelihood

베이지안 머신러닝 모델

모델 파라미터를 고정된 값이 아닌 불확실성(uncertainty)을 가진 확률 변수로 보는 것, 데이터를 관찰하면서 업데이트되는 값으로 보는 것

베이즈 정리(Bayes' theorem)

prior(prior probability, 사전 확률)

likelihood(가능도, 우도)

파라미터의 분포 가 정해졌을 때 라는 데이터가 관찰될 확률
prior 분포를 고정한 후, 주어진 파라미터 분포에 대해서 우리가 갖고 있는 데이터가 얼마나 '그럴듯한지' 계산하는것
p(X=x∣θ) , L(θ∣x)
입력 데이터의 집합을 , 라벨들의 집합을 라고 할 때, likelihood는 파라미터와 입력 데이터가 주어졌을 때 출력값(라벨)의 확률 분포, 즉 가 됨.
임의의 데이터 포인트가 모델 함수에서 멀어질수록 데이터의 likelihood는 기하급수적으로 감소
결국 데이터 포인트들의 likelihood 값을 크게 하는 모델을 찾는 것이 목표가됨
계산법
- 먼저 가진 데이터포인트(x,y)들이 서로 독립적이고 같은 확률분포를 가진다고 가정한다. (i.i.d, independent, identically distributed)
- 모두 독립이므로, 데이터 전체의 likehood = 데이터포인트 각각에 likehood를 모두 곱한것.
- 실제로 밑에서 MLE 할 때에는 미분계산의 편의를 위해 양변에 log를 씌워 log likelihood에 대해 구함.

likelihood가 높다는 것은 곧 우리가 지정한 파라미터 조건에서 데이터가 관찰될 확률이 높다는 것이고, 데이터의 분포를 모델이 잘 표현하는 것. 이에따라 데이터들의 likelihood 값을 최대화하는 방향으로 모델을 학습시키는 방법
계산법
- (ML: maximum likelihood) : likelihood를 최대화하는 파라미터를 찾는 과정

한계
- 식처럼 데이터셋 행렬 X, 라벨벡터 y가 있어야, 즉 MLE의 최적해는 오로지 관측된 데이터 값에만 의존함.
- 간단하긴 하나, 관측데이터에 outlier가 많으면 모델의 안정성이 떨어짐.
- 보완책으로 MAP 사용

posterior(posterior probability, 사후 확률)

728x90

추천시스템 - ALS (0)	2023.01.26
추천 시스템 알고리즘/ MF / CSR (0)	2023.01.25
확률과 통계 (0)	2023.01.16
Entropy / Cross - Entropy (0)	2023.01.12
Regression (회귀) / 이진분류는 회귀인가 분류인가? (0)	2023.01.12

AI를 모르고서야 어찌