본문 바로가기

Data-science/deep learning

[논문 읽기] UIS-RNN 설명, FULLY SUPERVISED SPEAKER DIARIZATION 설명 - 수식 설명

반응형

수식 설명 추가)


$$ x_t | x_[t-1], y_[t] $$

의 분포를 정규분포로 가정하고 있습니다.
$$ x_[t-1], y_[t] $$

는 각각 t-1까지의 sequence들, t까지의 청자 정보들입니다.
이 둘을 알고 있을 때 t에서의 sequence의 분포를 가정하는 것이지요.

가령 그림에서 보면 $y_7$=1, 2, 3, 4 경우의 수를 갖고 있지요. x는 $x_6$까지 알고 있는 상황이고요. 이런 상황일 때 $x_7$이 무엇이냐를 말하는 것입니다.

평균 $$u_t$$를 보았을 때 (분모/분자로 나눌 수 있는데 둘 다) 1모양의 binary indicator가 있습니다.

이는 이전의 화자랑 특정 화자가 같으면 1, 아니면 0을 나타내고 이를 다 더한 후 역수를 취한 값입니다.

가령 위 그림에선

(파랑, 파랑, 노랑, 분홍, 노랑, 노랑, 파랑 <- 가정)

이라 한다면 첫 번째 두 번짼 같으니 1, 두번짼 다르니 0 이런식으로 해서

$$ 1/(1 + 0 + 0 + 0+ 1 + 0) = 1/2 $$ 가 되겠지요.

$y_7$이 노랑이라면 1/3이 되구요. 

자 분모가 어떤 건지 살펴봤습니다.

분자는 일종의 기댓값이라고 생각됩니다.

$y_7$이

파랑이라고 하면 $$m_1 + m_5$$,

$y_7$이 노랑이라고 하면 $$m_1 + m_5 + m_7$$이 되겠네요.

즉 t시점의 화자값을 기준으로해서 gru output의 어떠한 평균 값을 평균으로하는 정규분포를 띈다고 가정한 것입니다.

왜 이런 가정을 했을까요? 혹시 알고 계신 분이 있으면 답변 부탁드립니다.

자, 지극히 주관적인 해석이었습니다. 

 

반응형