728x90
Abstract
- 현재 비지도 학습 기반 anomaly detection은 스케일링관련 능력과 운반능력? 높은 과검률(high false positive rate)등의 문제를 안고이있다.
- TadGAN은 LSTM을 생성자(Generator)와 비평가(Critics)에 해당하는 베이스 모델로 사용한다.
- cycle consistency loss를 이용해서 타임 시리즈 데이터의 reconstruction에 효과적이도록 학습한다.
- reconstruction error와 critic의 산출물을 조합하여 anomaly score를 계산하는 것 뿐만 아니라 reconstruction error를 계산하는 좋은 방법을 제안한다.
Introduction
- 다변수의 타임 시리즈 데이터가 주어지면, 비지도학습 기반의 모델을 통해 정상적인 패턴을 따르지 않는 time segment 집합을 찾는 게 목표
- 딥러닝의 문제점은 데이터에 너무 fit하게 하는 능력인데, 이게 비정상 데이터에까지 fit될 위험을 불러일으킨다. 예를들어 오토인코더에서 L2 목적 함수를 쓰면 reconstruction data가 매우매우 정확하게 나와서 비정상 데이터까지 fitting 시키는 것이다.
- 반면에 GAN의 경우 generator 가 데이터의 숨은 분포를 완전히 포착하게끔 학습시키는 데에는 비효율적이고, 이게 과검을 일으킨다(false alram)
- 그래서 두 가지 방법을 혼합한다. (오토 인코더 + GAN)
- 모델 자체를 개선하는 데 집중을 하는 작업이 많았지만, 후처리 공정을 향상시키면 false positive를 상당히 감소시킬 수 있음을 이 논문을 통해서 보여준다.
- TadGAN이란 비지도 GAN-reconstruction 기반 비정상 탐지 방법을 제시함, 특히 타임 시리즈에서 타임 시리즈로 맵핑이 가능한 cycle-cosistent GAN 구조를 소개했음
- 두 개의 타임시리의 유사성을 측정하는 방법으로 original 과 GAN이 재구축한 시퀀스 사이에 contextual similarity를 평가하는 방식이 적합한 것을 확인함. GAN의 generator와 Critic을 잘 조율하여 매 time step 마다 robust한 비정상 점수를 계산하도록 하였음
- 다른 11개 데이터 셋이서도 평가를 했다.
- 타임 시리즈 비정상 탐지에 대한 벤치마킹 시스템을 개발했다.