본문 바로가기

Data-science/deep learning

detection research review paper review 1

728x90

detection


  • Informative region selection
  • Feature extraction
  • Classification (Supported Vector Machine (SVM), AdaBoost, Deformable Part-based Model (DPM))

R-CNN improvements

    • Fast R-CNN
      • jointly optimizes classification and bounding box regression tasks
    • Faster R-CNN
      •  takes an additional subnetwork to generate region proposal
    • YOLO
      • accomplishes object detection via a fixed-grid regression
generic object detection -  achieved with bounding box regression

salient object detection - accomplished with local contrast enhancement and pixel-level segmentation

Face detection and pedestrian detection -  closely related to generic object detection and mainly accomplished with multi-scale adaption and multi-feature fusion/boosting forest, respectively


전통적인 벙법과 차이나는 CNN의 장점

  • 계층에 따른 특징 표현이 데이터로 자동으로 학습되고, 입력 데이터에서 숨겨진 요소들이 다층의 비선형 mapping을 통해 풀어져 나감
  • 깊은 구조로 인해 기하 급수적으로 표현력이 증가
  • CNN 구조는 몇몇 연관된 task들을 함께 최적화할 기회를 제공 ( ex) Fast R-CNN : 분류/bounding box 회귀 조합 )
  • 깊은 CNN망의 큰 학습 수용력으로 인해 전통적인 문제들이 다차원 데이터 변환 문제로 재구성 될 수 있음

포괄적인 객체 탐지 (generic object detection)
- 이미지내 객체의 위치 추출과 분류
- 경계 사각형 박스와 존재 확률값으로 레이블링

- 방법론적으로 2가지로 나눌 수 있음
- region proposal based methods (영역 제안 -> 각각 객체를 분류)
  -> R-CNN, SPP-net, Fast R-CNN, Faster R-CNN, R-FCN, FPN, Mask R-CNN
- The regression/classification based methods - 분류와 위치 추출을 통합
        -> MultiBox, AttentionNet, G-CNN, YOLO, SSD, YOLOv2, DSSD, DSOD
- 두 방식의 연관성 : Faster R-CNN에 나오는 anchors

A. Region Proposal Based Framework
- 전체적으로 훑어본 후 ROI에 집중하는 인간의 뇌 방식과 매치 됨
-> Overfeat은 sliding window 방법을 CNN에 삽입, 바운딩 박스 예측

1) R-CNN : Regions with CNN features

- 영역 제안 생성 (Region proposal generation) : selective search (1이미지당 2000개 영역 제안)

- CNN 기반 깊은 특징 추출

- Classification and localization

          - 다중 클래스에 대해 사전 학습된 선형 SVM으로, 다른 영역 제안들에 점수가 메겨짐.

 (양성 영역과 배경(음성) 영역 데이터 세트에 대하여)

    - 점수가 매겨진 영역에 bounding box regression이 적용 -> greedy non-maximum suppresion(NMS)

       -> 최종 bounding boxes 산출

- 처음엔 ILSVRC로 사전 학습, 이후에 도메인에 특화된 fine-tuning

- CNN 문제점

- FC layer -> 고정된 입력 크기를 요구해서 문제가 됨

- 학습이 single stage의 pipe line이 아닌 multi stage

- 처음에 CNN이 fine-tune되고

- softmax 분류기가 SVM으로 대체 됨

- 마지막으로 바운딩 박스 regressor 들이 훈련됨

- 학습이 비용이 시간상,메모리상 매우 큼

추출된 특징들이 disk에 저장

- selective search에 의해 추천된 영역들은 여전히 잉여가 너무 많음, 여기서 시간 소비 발생 (2초/2천장)



ref) https://arxiv.org/pdf/1807.05511.pdf