정리노트
Machine Learning에 필요한 기초지식 - Probability Overview(3)- Bayes Classfier(posterior, prior, likelihood) 본문
Machine Learning에 필요한 기초지식 - Probability Overview(3)- Bayes Classfier(posterior, prior, likelihood)
Krex_Kim 2022. 4. 18. 20:20이전 Probability Overview(1),(2)에서 다룬 내용은 이번포스팅을 위한 준비운동이었고,
이제부터 본격적으로 Machine Learning Model의 큰 뿌리중 하나라고 볼 수 있는 Bayes Classifier를 살펴보도록 하겠다.
◆ 목차
◎ Bayes Rule (posterior, prior, likelihood)
◎ Discriminative Model VS Generative Model
○ Examples (Classification Problem에서의 Probabilistic Setting)
◎ Bayes Classifier
◎ Bayes Rule (posterior, prior, likelihood)
Bayes Rule은 두 Random Variable의 Prior Probability와 Posterior Probability사이의 관계를 나타내는 정리로,
아래와 같이 표현할 수 있다.
Prior, Likelihood(우도), Posterior, Marginal(Evidence)에 관해서는 아래 블로그에 정리가 잘되어 있으니
참고해서 이해해보길 바란다.
https://hyeongminlee.github.io/post/bnn001_bayes_rule/
https://hwiyong.tistory.com/27
◎ Discriminative Model VS Generative Model
Bayes rule은 사전확률로부터 사후확률을 구할 수 있음을 나타내는 정리이고,
이를 이용하면 Joint Distributed Probability에 대해 아래와같은 관점으로 바라볼 수 있다.
같은 Jointly Distributed Probability P(x,y)를 가지고
두가지 관점에서 바라볼 수 있는 것이다.
좌항의 Posterior를 만들어내는 모델을 'Discriminative model'이라 하고,
우항의 likelihood*prior를 학습하거나,혹은 Jointly distibuted Probability를 학습하는 모델을 'Generative model'이라고 한다.
이에 대해서 아래 Example을 통해 이 두가지 모델을 설명해보도록 하겠다.
○ Examples (Classification Problem에서의 Probabilistic Setting)
- Binomial Classification Case ... y∈{0,1}
이에대해서 아래와같이 Notation을 정리해보고 시작해보자.
Prior X Likelihood = Generative model,
marginal X Posterior = Discriminative Model
이에 대하여 Graphical하게 표현해보면 비교적 쉽게 이해할 수 있는데
첫번째 그림은 Generative Model, 두번째 그림은 Discriminative Model에서의 Jointly Distribution을 Graphical하게 나타낸 것이다.
우리가 구하고 싶은것은 두가지 Random Variable의 Joint Distribution이다.
이에대해,
Generative Model에서는 LOTP를 이용해 Prior X likelihood 관점으로 Distribution을 해석한 것이고,
Discriminative Model에서는 Posterior에 Evidence(y에대한 marginal)을 곱하여 이를 해석한 것이다.
- Multiclass Classification ... y∈{0,1,2,..M}
조금전과 마찬가지로 아래와 같이 표현 가능하다.
즉,
* Discriminative Model vs Generative Model의 차이
지금까지 Jointly Distributed Probability를 구하는 방식에
'Prior(사전확률)'을 이용하는 방법(Generative)과 'Posterior(사후확률)'을 이용하는 방법(Discriminative) 두가지가 존재함을 살펴봤다. 두가지 방식 모두 최대가 되는 지점을 찾아서 학습하면 제일 좋겠지만,
보통의 경우에 Context에 따라 적절한 방식이 다르다. (일종의 Trade Off)
Generative Model은'사전 확률(Prior)'과 관측된 데이터의 likelihood의 곱을 통해 확률을 구하며,
'Prior'를 가정하여 모든 데이터의 분포를 파악했다고 여기고 Decision Boundary를 결정하는 방식이다.
대표적인 예시로는 LDA,NB(나이브 베이지안은 Generative인지에 대한 논쟁이 있다)
+ Generative Model은 Prior를 제대로 가정할 수 없는 상황에서는 적절하게 사용될 수 없는 모델이다.
Generative Model의 이름이 'Generative'인 이유는 이것이 데이터를 생성해낼 수 있는 특징을 가졌기 때문이다.
Discriminative Model은 'Posterior'와 'model Evidence'의 곱을통해 확률을 구하며,
관측된 데이터를 기반으로 그와 관련된 Probability Distribution을 형성해 Decison Boundary를 결정하는 방식이다.
최근엔 인공지능이 '딥러닝' 처럼 빅데이터를 기반으로 한 모델이 많아졌는데, 이런 모델은 'Generative Model'에 속하는 모델이다. 가장 대표적인 예시로는 Logistic Regression이 있다.
+Discriminative Model은 수집된 데이터가 적은 상황에서는 적절히 동작하지 않는다.
수집된 데이터는 적지만 해당 확률에대한 사전지식이 확실하여 Prior를 정확히 구할 수 있는 상황에서는
Generative Model을 사용한다.
◎ Bayes Classifier
지금까지 Jointly Distributed Probability를 구할때, 두가지 관점에서 접근가능하다는 것을 살펴보았다.
그리고 이 두가지 관점으로 구한 확률값은 Context에 따라서 성능이 서로 달라질 수 있는 것까지 이야기 하였다.
Bayes Rule에 따라 아래의 조건을 만족하는 Classifier를 Bayes Classifier라고 하고,
Likelihood가 가장 큰 값을 선택하는(Prior는 고정되어 있으므로,) Classifier를 MLE(Maximum likelihood)
Posterior가 가장 큰 값을 선택하는 Classifier는 MAP(Maximum a Posterior)라고 부른다.
* 이때에러가 최소가 되는 risk를 Bayes Risk라고 부른다.