본문 바로가기

Data-science/논문 읽기

[논문 읽기] Pixel-wise Anomaly Detection in Complex Driving Scenes

728x90

최근의 연구들은 비정상 지역을 확인하거나, 입력 이미지와의 이질감을 발견하기 위한 세그멘테이션 라벨맵으로 재합성하기 위해 세그멘테이션 불확실성을 이용하였다. 이 논문에선, 이 두 가지 방법이 추가 정보를 포함하고 있고 합쳐지면 더 비정상 세그멘테이션 과제에서 더 robust한 예측을 할 수 있다는 걸 설명한다. 픽셀별 비정상 탐지 프레임워크를 제시하는데, 이는 불확실성 맵을 이용해서 기존 재합성 방법(입력과 생성 이미지 사이의 이질감을 발견하는 방법)을 보다 향상 시킨다. 

- 기존에 있던 불확실성과 재합성 방법론의 가장 좋은 특징만을 잘 활용한 우수한 방법이다.

- 다양한 비정상 시나리오에도 높은 성능을 나타낸다.

- 다른 세그멘테이션 합성 네트워크에도 wrapper로써 일반화가 가능한 프레임워크다.

- 생성 이미지의 경우 입력 이미지와  비정상이 있는 특정 부분에서 차이 외관상 차이를 보일 것이다.

- 초기엔 오토 인코더를 써서 재합성 했는데 퀄리티가 떨어졌다.

- 최근엔 예측한 세그멘테이션 맵을 바탕으로 GAN을 이용해 재합성한다. 실제같은 사진이 입력이미지와 비교되고, 그 차이가 비정상 객체들의 위치 정보를 알려준다.

- 세그멘테이션 네트워크를 재학습 시킬 필요가 없다. 일반화하는데 도움이 되는 OoD 샘플들이 필요없다. 

- 이 방법의 성능은 입력과 생성 이미지 특징 사이를 미분하는 차이 모듈?의 능력에 제한되어 있고,  복잡한 자율 주행 신같은 건 되게 첼린징한 문제가 된다.

- 이 논문에선 장면의 불확실성 정보를 차이 네트워크에 feeding 시켜 비정상 탐지 모듈의 능력을 크게 향상 시키는 것을 설명할 것이다.

위 그림에서 나타나듯이 Segmentation module, Synthesis Network, Dissimiliarty Network로 구성되어 있다.

각각 모듈에 대한 설명은 아래.

softmax entropy H와 softmax distance D를 계산한다.

실제 이미지와 합성된 이미지 사이의 perceptual difference V 를 계산한다. 

Dissimiliarity module은 인풋인자가 많다... 원래 이미지와 생성된 이미지, 세그멘테이션 맵, softmax entropy, softmax distance, perceptual disance 가 인풋이다. 이 피쳐들을 조합해서 anomaly segmentation map 을 예측한다. 

encode, fusion module, decode로 구성되어 있다. 특이점은 Fusion module에서 포인트별로 uncertainty feature map을 이용하여 correlation을 시행한다는 것. 이게 피쳐맵에서 불확실성이 높은 영역에 집중하게끔 가이드를 해준다고 한다. 아래그림에도 잘 설명되어있다.

 

결과