본문 바로가기

반응형

Data-science/논문 읽기

(31)
[논문 읽기] Anomaly Detection in Video Sequence with Appearance-Motion Correspondence 특정 시간 t의 비디오 프레임이 입력값으로 주어지면, 인코더를 통해 인코딩 된다. 그리고 디코더는 2개인데, 인코딩된 코드를 입력값과 같게 복원하는 디코더와, t와 t+1 시간 사이의 움직임을 예측하는 디코더로 이루어져있다. 원래 형상을 복원하는 appearance spatial structure에는 u-net의 skip connection을 사용하지 않음, 그렇게 되면 초기 입력 정보의 연결만 흘러보내게 되고, 인코딩을 제대로 학습하지 않을 수도 있기 때문이다. 모션 예측에는 skip connection을 이용 (초기 low level feature들인 엣지, 이미지 펫치 등을 전달하여 image translation 시 유용하기 때문이다.) 3.2. Appearance convolutional aut..
[논문 읽기] Anomaly Detection using Convolutional Spatiotemporal Autoencoder 공간 특징을 표현하기위한 네트워크와 시간적 경과를 표현하기 위한 네트워크로 구성되어 있다. 그래서 Spatio Temporal 이다. 심플한 논문 비정상 행동 비디오가 들어오면 reconstruction error가 임계값 보다 높게 나올테고, 이를 비정상으로 분류하는 것이다.
[논문 읽기] Ground and Multi-Class Classification of AirborneLaser Scanner Point Clouds Using FullyConvolutional Networks 3d point cloud 에서 DTM을 뽑아내는데 딥러닝을 이용한다. DTM은 Digital Terrain Model의 약자로 건물이나 식물들이 없는 평평한 지형의 고도값을 픽셀로 하여 시각화한 이미지를 말한다. 이런 작업을 하기 위해 우선 3d point cloud를 다차원 이미지로 투영시킨다. 그리고 FCN(segmentation에서 쓰이는 딥러닝 아키텍쳐 구조)을 통해 지형인 포인트, 지형이 아닌 포인트를 분류해준다. 성능을 여러 방법들과 비교해본다. 1. Introduction Although the CNN-based method can produce accurate classifications, the point-to-image conversion is inefficient due to hig..
[논문 읽기] Pixel-wise Anomaly Detection in Complex Driving Scenes 최근의 연구들은 비정상 지역을 확인하거나, 입력 이미지와의 이질감을 발견하기 위한 세그멘테이션 라벨맵으로 재합성하기 위해 세그멘테이션 불확실성을 이용하였다. 이 논문에선, 이 두 가지 방법이 추가 정보를 포함하고 있고 합쳐지면 더 비정상 세그멘테이션 과제에서 더 robust한 예측을 할 수 있다는 걸 설명한다. 픽셀별 비정상 탐지 프레임워크를 제시하는데, 이는 불확실성 맵을 이용해서 기존 재합성 방법(입력과 생성 이미지 사이의 이질감을 발견하는 방법)을 보다 향상 시킨다. - 기존에 있던 불확실성과 재합성 방법론의 가장 좋은 특징만을 잘 활용한 우수한 방법이다. - 다양한 비정상 시나리오에도 높은 성능을 나타낸다. - 다른 세그멘테이션 합성 네트워크에도 wrapper로써 일반화가 가능한 프레임워크다. -..
[논문 읽기] TadGAN (Time Series Anomaly Detection UsingGenerative Adversarial Networks) - 2 Generator가 2개 있는데 $$\varepsilon $$와 G가 그것이다. $$\varepsilon $$은 인코더로 타임 시리즈 데이터를 latent space로 맵핑 시키는 역할을 하고, G는 반대로 디코더의 역할을 한다. $$C_x, C_z$$가 discriminator라고도 알려진 Critic 역할을 하는데, 전자는 실제 타임 시리즈 데이터와 디코더를 통해 생성된 타임 시리즈를 구별해준다. 후자는 latent space로 맵핑이 잘 이루어졌는지를 측정한다. Wasserstein loss (GAN loss) 첫 번째는 GAN loss인데 기존의 banila gan의 loss를 그대로 사용할 경우 mode collapsing 문제에 부닥치게 된다. 따라서 Wassertein loss를 이용한다. ..
[논문 읽기] TadGAN (Time Series Anomaly Detection UsingGenerative Adversarial Networks) - 1 Abstract 현재 비지도 학습 기반 anomaly detection은 스케일링관련 능력과 운반능력? 높은 과검률(high false positive rate)등의 문제를 안고이있다. TadGAN은 LSTM을 생성자(Generator)와 비평가(Critics)에 해당하는 베이스 모델로 사용한다. cycle consistency loss를 이용해서 타임 시리즈 데이터의 reconstruction에 효과적이도록 학습한다. reconstruction error와 critic의 산출물을 조합하여 anomaly score를 계산하는 것 뿐만 아니라 reconstruction error를 계산하는 좋은 방법을 제안한다. Introduction 다변수의 타임 시리즈 데이터가 주어지면, 비지도학습 기반의 모델을 통해..
[논문 읽기] MeshTransformer, End-to-End Human Pose and Mesh Reconstruction with Transformers. CNN과 Multi-Layer Transformer Encoder를 적용함 우선 imageNet classification 과제로 사전 학습된 CNN 을 이용해서 feature vector를 추출하고 (차원은 2048) 이걸 transformer가 regression하는 입력 값으로 넣어준다. 고해상도 이미지일 경우 3D 바디 조인트나 메쉬 regression에서 좀 더 이득이 있다. 현존하는 트랜스포머 인코더 구조는 모든 레이어에서 히든 임베딩의 차원이 상수값으로 일정하게 고정되어 있어서 이를 바로 사용할 수는 없었다. 그래서 새로운 구조를 창안했는데, 점진적으로 각 인코딩 레이어를 거치며 히든 임베딩의 차원을 줄이는 것이다. 인코더 레이어를 여러개 추가함으로써 모델은 self-attentions과 차..
[논문 읽기] Learnable Triangulation of Human Pose -1 1. 미분가능한 대수 삼각화(삼각형만들기 연산), 입력 이미지들로부터 컨피던스 가중치를 추가하여 구함 2. 중간에 나오는 2D backbone 피쳐맵 결과로 부터 volumetric 하게 aggregation하는 방법. -> 3D conv로 3D joint 히트맵을 생성할 수 있고, 이건 사람의 자세를 모델링 할 수 있게 해준다. 두 방법 모두 처음부터 끝까지 미분 가능한 연산이라 타겟 지표를 직접적으로 최적화할 수 있다. 각 뷰에서 바라본 이미지가 독립적으로 처리돼서 삼각화 된다. H는 backbone을 거쳐 나온 히트맵이다. 이차원 위치를 계산하기 위해 공간 축에 대해 softmax를 계산한다. 그러면 히트맵의 무게 중심으로서 관절의 2D 위치를 계산한다. soft-argmax 의 중요한 특징은 gr..

728x90
반응형