본문 바로가기

Data-science/deep learning

convent,detection에서 translatioan invariant 하다는 의미에 관한 고찰

반응형


1. 딥러닝에서 Convolution network가 translation invariant 하다는 의미

  

think there is some confusion about what is meant by translational invariance. Convolution provides translation equivariance meaning if an object in an image is at area A and through convolution a feature is detected at the output at area B, then the same feature would be detected when the object in the image is translated to A'. The position of the output feature would also be translated to a new area B' based on the filter kernel size. This is called translational equivariance and not translational invariance.

  • 이미지내 영역 A에있는 물체가 conv 필터를 통과해서 영역 B에서 출력되는 특징이 탐지 된다면... 물체가 영역 A에서  A'로 이동했다고 하자, 그럴 때 출력되는 특징도 필터 커널 사이즈에 근거해서 새로운 영역 B'로 이동하게 된다. 즉 translation equivariance란 input이 translation 이동에 의해 변하면 그에 근거해서 output도 translation 이동에 의해 변하게 된다.


While your answer is correct in part and leads to confusion. It is true that Convolutional layers themselves or output feature maps are translation equivariant. What the max-pooling layers do is provide some translation invariance as @Matt points out.

That is to say, the equivariance in the feature maps combined with max-pooling layer function leads to translation invariance in the output layer (softmax) of the network. The first set of images above would still produce a prediction called "statue" even though it has been translated to the left or right. The fact that the prediction remains "statue" (i.e. the same) despite translating the input means the network has achieved some translation invariance.

  • translation invariance란 pooling 이나 마지막 softmax layer에서 계산하는 것처럼 input 이미지에서 물체가 영역 A에서 영역 A'로 translation이동 한것이 output 단계의 출력에 영향을 미치지 않는 것을 의미한다.

  • 정리하면, convolution network에선 각각의 convnet은 translation에 equivariant하지만, conv layer 이후 pooling layer와 마지막 단의 softmax에 의해 translation equivariant한 성질이 어느정도 사라지게 되서 translation invariant하다고 할 수 있다.



2. detection에서 translation-invariant란?

Translation-Invariant Anchors 

An important property of our approach is that it is translation invariant, both in terms of the anchors and the functions that compute proposals relative to the anchors.

If one translates an object in an image, the proposal should translate and the same function should be able to predict the proposal in either location. This translation-invariant property


  • Faster R-CNN 논문에서 위 내용이 나온다. Anchor기반 Region proposal network를 제안하는데, 여기서 Anchor가 translation에 invariant하다고 말한다. 즉 물체가 이미지 내 어디에 있든지 그 물체를 예측할 수 있다고 하는 건데, 그와 관련된 자세한 원리는 좀 더 연구가 필요하다/

ref) https://stats.stackexchange.com/questions/208936/what-is-translation-invariance-in-computer-vision-and-convolutional-neural-netwo

ref) https://arxiv.org/pdf/1506.01497.pdf

반응형