Deep Learning을 공부하다 이진분류의 오차 함수를 유도하는 과정이 있었는데 이때 이진분류 오차함수를 구하는 과정엣서 최대우도측정이라는 것을 사용했다.
그리하여 최대우도측정이란 무엇인지 공부해보았다.
최대우도측정을 말하기 전에 우선 확률부터 이야기를 해보면
확률이란 확률분포가 있을 때, 관측값 또는 관측 구간이 확률 분포 안에서 얼마의 확률로 존재하는 가를 나타내는 값이다. 즉, 특정 상황에 대한 확률분포가 있는데 이때 내가 관찰한 값이 어떤 확률을 갖는지 확률분포를 통해 알게 된다.
위와 같은 확률분포표는 중학교 때부터 많이 봐왔을것이다.
그럼 가능도(우도, likelihood)란 무엇일까?
우도란 어떤 값이 관측되었을 때, 이것이 어떤 확률 분포에서 왔을지에 대한 확률이다.
확률은 주어진 확률분포에서 관측값이 나올 확률을 구하는 것이라면 우도(가능도)란 주어진 관측값에서 이것이 해당 확률 분포에서 나왔을 확률을 말한다.
쉽게 이해하기 위해 예를 들어 보자.
700g의 무게를 갖는 춘식이가 있을 때 이 춘식이가 특정 확률분포를 통해 700g 춘식이가 나올 확률은 확률이고
700g의 무게를 갖는 춘식이가 있을 때 이 춘식이가 다양한 확률분포 중 어떤 확률분포에서 나왔을지에 대한 확률이 가능도 이다.
즉, 가능도는 확률의 확률이라 할 수 있다.
그렇담 최대 우도 추정이란 무엇일까?
최대 우도 추정은 우도가 가장 큰 값을 추정하는 것으로 관측 된 값에 대한 총 가능도가 최대가 되는 분포를 찾는 것을 말한다.
그렇담 이진분류에서 가중치를 구하기 위해 최대우도법을 사용하는 이유는 무엇일까?
이진분류에서 최대우도추정을 쓰는 이유는 이진 분류의 경우 결과가 0 또는 1이 나오는 경우인데 0 또는 1이 나올 사후 확률값을 가지고 가장 사후 확률 분포가 잘 맞는 확률 분포를 찾아야 하기 때문에 즉, 확률의 확률이 가장 잘 들어 맞는 값을 찾아야 하기 때문에 최대우도법을 사용한다.