실제 이미지를 임베딩하는 것 (vector, latent code로 표현하는 것)에는 주로 latent code를 역전파로 optimization 하는 과정이 쓰인다. 그런데 이건 매우 느리다. 여기선 stylegan2에 쓰인 이미지 조종 기법을 distillation(선생, 학생 각 네트워크를 이용 정확도 성능을 개선하면서도 좀 더 가볍게 만드는 학습 기법)할 것을 제안한다. 새로운 방식은 pix2pix처럼 paired한 방식으로 훈련된, 이미지 대 이미지 네트워크이다. 이렇게 나온 파이프라인은 기존의 unpaired한 데이터로 훈련된 GAN들을 대체할 수 있다. 사람 얼굴 변형, 성별 변형, 연령 변형, 스타일 변형, 이미지 morphing(모핑, 어떤 모습을 전혀 다른 모습으로 서서히 변형시키는 것) 등 실험 결과를 제공한다. 이 방법으로 생성된 이미지의 품질이 StyleGan2의 역전파를 이용한 것과 비견될 만한 것을 보여준다. 이와 같은 과제에선 최고 성능을 나타내는 방법이다.
Introduction
latent space 상에서 vector를 더하고, 선형 보간하기, 교차하기 등은 각각 표현 전이, 모핑, 스타일 전이 등을 나타낸다. 특정 레이어들의 vector를 변화시키는 건 생성되는 이미지의 각기 다른 스케일에서의 변화를 초래한다. 저자들은 해상도에 따른 생성과정을 성긴 정도, 중간 정도, 미세한 정도 3 그룹으로 나눴다. 어떤 사람의 한 스케일의 코드와, 다른 한 사람의 또 다른 스케일의 코드를 조합하는 것도 가능하다.
latent space에서 탐색은 backpropagataion 방법, feed-forward 방법이 있다. feed-forward는 latent code 최적화 초기상태에만 작동한다고 보고 된 상태다. 그런데 인퍼런스 과정이 느려서 stylegan2를 실제 활용하는데도 데이터 센터에서도 비용이 많이 드는 등 제약이 많이 따른다.
이 논문에선 stylegan2 generator의 특정 이미지 조작을 distillation 할 수는 없을까?에 대해 고려해본다. 얼굴의 외관 정보를 추출하고 그것들이 변할 수 있는 방법을 이미지 대 이미지 방식으로 바꿔준다.
paird한 데이터 셋을 생성하는 방법을 제안한다. 이렇게 수집한 데이터로 student network를 학습한다. 이 방법은 매우 유동적이고, 특정 이미지 대 이미지 모델에 제한돼 있지 않는다.
이미지 대 이미지 네트워크는 생성된 샘플로만 훈련되는 것이다. 그런데도 실제 이미지에 StyleGan의 역전파 방법 (unpaired한 데이터로 학습한 최신 알고리즘) 과 비견될만한 성능을 나타낸다.
이 논문의 기여점은 다음과 같다.
- 사람 얼굴 데이터에서 (성별, 연령, 스타일, 얼굴 모핑 등을 위한) paired한 합성 이미지 데이터셋을 만들었다.
- 합성 데이터를 토대로 이미지 대 이미지 네트워크를 학습하는 게 가능함을 보였다. 그리고 실제 이미지에도 이 네트워크를 적용 가능하다는 것도,.
- 합성 이미지 데이터셋으로 학습한 이미지 대 이미지 네트워크의 질적, 양적 성능을 연구했다.
- 성별 전환 테스크에선 기존 방법보다 성능이 우수했다.
unconditional 이미지 생성의 대표 주자인 style gan의 특징을 되짚어 본다.
- 맵핑 네트워크, AdaIN(adaptive instance normalization), constant input, noise 더하기, mixing regulariztaion 등.
- stylegan2는 adaIn을 재고하면서 생성 이미지에 나타난 물방울 모양의 artifact 문제를 해결, perceptual path length를 regularizer로 사용해서 latent code 간의 disentanglement를 향상 시켰다. (style간의 특성이 서로 잘 구분되어 있어서, latent 상에서 특정 style 조절이 용이해진다. 이렇게 style들이 잘 구분되어질 경우 disentanglement라 한다.)
- StyleGan의 핵심 요소는 맵핑 네트워크이다. Z를 W로 맵핑하면서, disentanglement를 향상시켰다. (즉 latent 간에 style이 섞이는 현상이 z->w로의 비선형 맵핑을 통해 완화된 것임) Z가 AdaIn을 거치는게 아닌, W가 AdaIn을 거친다. 또는 W+ (독립적인 W의 샘플 여러개로 구성된 공간)에서 벡터를 샘플링 하는게 가능한대, 한 W는 generator의 각 레이어에 입력된다.). 각기 다른 레이어에서 w를 달리하는 것은 다른 스케일에서 생성된 이미지의 detail을 변화시켜준다.
관련 연구들
latent code 조종. stylegan에선 backprop optimization을 통해 embedding 시키고. 이걸로 조종을 한다.
paired한 이미지 이미지 변환은 pix2pix가 대표적
unpaired한 이미지 이미지 변환은 cycle gan, star gan 등이 있다.
데이터 합성은 다르게 말하면 knowledge distillation으로 볼 수 있다. 왜냐면 teacher 네트워크에서 생성, 합성한 이미지를 student 네트워크에서 학습할 수 있게하는 기술이기 때문이다.
2에서 계속