1. 미분가능한 대수 삼각화(삼각형만들기 연산), 입력 이미지들로부터 컨피던스 가중치를 추가하여 구함
2. 중간에 나오는 2D backbone 피쳐맵 결과로 부터 volumetric 하게 aggregation하는 방법. -> 3D conv로 3D joint 히트맵을 생성할 수 있고, 이건 사람의 자세를 모델링 할 수 있게 해준다.
두 방법 모두 처음부터 끝까지 미분 가능한 연산이라 타겟 지표를 직접적으로 최적화할 수 있다.
각 뷰에서 바라본 이미지가 독립적으로 처리돼서 삼각화 된다. H는 backbone을 거쳐 나온 히트맵이다.
이차원 위치를 계산하기 위해 공간 축에 대해 softmax를 계산한다.
그러면 히트맵의 무게 중심으로서 관절의 2D 위치를 계산한다.
soft-argmax 의 중요한 특징은 gradients가 최종 관절 x의 2D 위치 출력값 으로부터 히트맵 H까지 뒤로 흐른다는 것이다.
backbone은 soft-argmax가 아닌 MSE로 학습된 pretrained된 모델이므로 히트맵에 '온도의 역수' 파라미터로 $$\alpha=100$$을 곱하고, 그래서 학습 초기에 soft-argmax가 최대값의 위치와 유사한 결과값을 출력할 수 있게 된다.
관절의 2D 추정치로 부터 3D 위치를 추론하기 위해, 선형 대수적 접근을 한다. 이 방법은 관절의 3D y좌표를 찾는 것으로 축소된다. y의 homogeneous 3D좌표 벡터 overdetermined system 방정식 $$A_jy^~_j =0$$ 을 푸는 것이다.