정리노트

Machine Learning에 필요한 기초지식 - Probability Overview(3)- Bayes Classfier(posterior, prior, likelihood) 본문

AI/Machine Learning

Machine Learning에 필요한 기초지식 - Probability Overview(3)- Bayes Classfier(posterior, prior, likelihood)

Krex_Kim 2022. 4. 18. 20:20

이전 Probability Overview(1),(2)에서 다룬 내용은 이번포스팅을 위한 준비운동이었고,

이제부터 본격적으로 Machine Learning Model의 큰 뿌리중 하나라고 볼 수 있는 Bayes Classifier를 살펴보도록 하겠다.

 

 

◆ 목차

 Bayes Rule (posterior, prior, likelihood)

Discriminative Model VS Generative Model

 ○ Examples (Classification Problem에서의 Probabilistic Setting)

Bayes Classifier

 

 

 

 

 Bayes Rule (posterior, prior, likelihood)

Bayes Rule은 두 Random Variable의 Prior Probability와 Posterior Probability사이의 관계를 나타내는 정리로,

아래와 같이 표현할 수 있다.

Prior, Likelihood(우도), Posterior, Marginal(Evidence)에 관해서는 아래 블로그에 정리가 잘되어 있으니

참고해서 이해해보길 바란다.

 

https://hyeongminlee.github.io/post/bnn001_bayes_rule/

 

Bayes Rule (베이즈 룰) | Hyeongmin Lee's Website

Bayes Rule은 Bayesian Deep Learning에서 가장 기본이 되는 개념입니다. 어떤 값을 예측하기 위한 수단으로서 딥러닝 이전부터 굉장히 많이 쓰여 왔던 방식이기 때문에 Bayesian Deep Learning이 아니더라도 알

hyeongminlee.github.io

https://hwiyong.tistory.com/27

 

posterior과 bayesian

논문을 읽다보면 확률 모델에 대한 이야기가 많이 나옵니다. 사실상 이해를 못한 채 넘어가는 부분이 많은데, 검색을 통해서 공부하고 또 공부한 내용을 한번 적어보도록 하겠습니다. 대표적으

hwiyong.tistory.com

 

 

 

 Discriminative Model VS Generative Model

 

Bayes rule은 사전확률로부터 사후확률을 구할 수 있음을 나타내는 정리이고,

이를 이용하면 Joint Distributed Probability에 대해 아래와같은 관점으로 바라볼 수 있다.

같은 Jointly Distributed Probability P(x,y)를 가지고

두가지 관점에서 바라볼 수 있는 것이다.

 

좌항의 Posterior를 만들어내는 모델을 'Discriminative model'이라 하고,

 

우항의 likelihood*prior를 학습하거나,혹은 Jointly distibuted Probability를 학습하는 모델을 'Generative model'이라고 한다.

 

이에 대해서 아래 Example을 통해 이 두가지 모델을 설명해보도록 하겠다.

 

○ Examples (Classification Problem에서의 Probabilistic Setting)

 

- Binomial Classification Case ... y∈{0,1}

 

이에대해서 아래와같이 Notation을 정리해보고 시작해보자.

이는 보통 논문에서 자주쓰는 Notation인데 참조

 

Prior X Likelihood = Generative model,

marginal X Posterior = Discriminative Model

 

이에 대하여 Graphical하게 표현해보면 비교적 쉽게 이해할 수 있는데

LOTP는 Law Of Total Probability의 약자이다.

첫번째 그림은 Generative Model, 두번째 그림은 Discriminative Model에서의 Jointly Distribution을 Graphical하게 나타낸 것이다.

 

우리가 구하고 싶은것은 두가지 Random Variable의 Joint Distribution이다.

이에대해,

Generative Model에서는 LOTP를 이용해 Prior X likelihood 관점으로 Distribution을 해석한 것이고,

Discriminative Model에서는 Posterior에 Evidence(y에대한 marginal)을 곱하여 이를 해석한 것이다.

 

 

- Multiclass Classification ... y∈{0,1,2,..M}

조금전과 마찬가지로 아래와 같이 표현 가능하다.

 

 

즉,

 

 

 

 

* Discriminative Model vs Generative Model의 차이

지금까지 Jointly Distributed Probability를 구하는 방식에 

'Prior(사전확률)'을 이용하는 방법(Generative)과 'Posterior(사후확률)'을 이용하는 방법(Discriminative) 두가지가 존재함을 살펴봤다. 두가지 방식 모두 최대가 되는 지점을 찾아서 학습하면 제일 좋겠지만,

보통의 경우에 Context에 따라 적절한 방식이 다르다. (일종의 Trade Off)

 

Generative Model은'사전 확률(Prior)'과 관측된 데이터의 likelihood의 곱을 통해 확률을 구하며,

'Prior'를 가정하여 모든 데이터의 분포를 파악했다고 여기고 Decision Boundary를 결정하는 방식이다.

대표적인 예시로는 LDA,NB(나이브 베이지안은 Generative인지에 대한 논쟁이 있다)

 

+ Generative Model은 Prior를 제대로 가정할 수 없는 상황에서는 적절하게 사용될 수 없는 모델이다.

Generative Model의 이름이 'Generative'인 이유는 이것이 데이터를 생성해낼 수 있는 특징을 가졌기 때문이다.

 

 

Discriminative Model은 'Posterior'와 'model Evidence'의 곱을통해 확률을 구하며,

관측된 데이터를 기반으로 그와 관련된 Probability Distribution을 형성해 Decison Boundary를 결정하는 방식이다.

최근엔 인공지능이 '딥러닝' 처럼 빅데이터를 기반으로 한 모델이 많아졌는데, 이런 모델은 'Generative Model'에 속하는 모델이다. 가장 대표적인 예시로는 Logistic Regression이 있다.

 

+Discriminative Model은 수집된 데이터가 적은 상황에서는 적절히 동작하지 않는다.

수집된 데이터는 적지만 해당 확률에대한 사전지식이 확실하여 Prior를 정확히 구할 수 있는 상황에서는

Generative Model을 사용한다.

 

 

 

 

 Bayes Classifier

지금까지 Jointly Distributed Probability를 구할때, 두가지 관점에서 접근가능하다는 것을 살펴보았다.

그리고 이 두가지 관점으로 구한 확률값은 Context에 따라서 성능이 서로 달라질 수 있는 것까지 이야기 하였다.

Bayes Rule에 따라 아래의 조건을 만족하는 Classifier를 Bayes Classifier라고 하고,

 

Likelihood가 가장 큰 값을 선택하는(Prior는 고정되어 있으므로,) Classifier를 MLE(Maximum likelihood)

Posterior가 가장 큰 값을 선택하는 Classifier는 MAP(Maximum a Posterior)라고 부른다.

* 이때에러가 최소가 되는 risk를 Bayes Risk라고 부른다.

 

 

 

 

 

Comments