본문 바로가기

Data-science/deep learning

[논문 읽기] UIS-RNN 설명, FULLY SUPERVISED SPEAKER DIARIZATION 설명 - 2

반응형

어려운 수식들이 등장한다. x_t의 사후확률이, 뮤(u)라 쓰겠다. u_t를 평균으로 하는 정규 분포를 따른다고... 위 수식적인 설명보단 그림을 통해 이해하는게 더 빠르다.

 

점선을 기준으로 왼쪽이 알고 있는 부분, 오른쪽이 새로운 가능성인 부분이다. 왼쪽 부분에서 화자는 (파랑,파랑, 노랑, 분홍, 노랑, 노랑)으로 분리 된다. 그러면 그 다음 화자는? 기존의 파랑, 노랑, 분홍 중 하나이거나 다른 색깔(초록)일 수도 있다. 그 확률이 이전에 나온 y 수열과 x 수열에 영향을 받는 것이다.

수식이 꽤 어렵다..

1 번에서 말했듯 밑줄친 저 결합확률의 로그를 최대화하는 게 목적이다. g를 간단하게 상수로 놓으면 해가 간단해진다.

그런데 세타와 시그마제곱은 이게 어렵다. 그래서 확률적 경사 상승법 (sgd 반대)을 사용해서 업데이트 한다.

확률을 최대화하는 y_t, z_t를 찾고 점진적으로 다음 시퀀스를 생성해낸다. 자세한 설명은 생략하도록 한다.

반응형