본문 바로가기

Data-science/논문 읽기

[deep learning 논문 읽기] Stylegan2 ada 이해하기

728x90

 

  • adaptive discriminator augmentation 알고리즘을 제안
  • 수 천장의 이미지만 있어도 학습 가능

현대의 GAN은 일반적으로 수 만, 수 십 만 장에 해당하는 이미지 데이터셋을 요구한다. 이미지가 부족하면 (작은 데이터셋) 나타나는 문제는 학습중 Discriminator가 과적합(overfitting) 되는 것이다. 과적합 되면 Generator에게 주는 feed back이 무의미해지고, 학습은 발산하기 시작한다. discriminator의 과적합을 막기 위해 증강 방안을 모색한다. 단 생성한 이미지는 증강 효과가 반영돼선 안된다.

위 그림을 보면 140k를 제외한 나머지 데이터 셋 (14만장 이하)의 경우 FID가 어느 순간 증가한다. 과적합 되는 것이다. (b)는 50k 데이터셋의 Discriminator의 분포를 나타낸다. 분포를 보면 학습할수록 Real과 Generated 사이의 D(x)가 벌어진다. 갈수록 더 많이 확신을 하고 있다는 것이고 이건 과적합의 징후다. 검증 데이터 셋에 대해서도 똑같이 fake라고 확신하는 것을 보아 제대로 과적합 됐다는 것을 알 수 있다.

bCR은 최근 제안된 증강 기법이다. 증강을 하되, 이게 생성 이미지에는 반영되지 않게 만드는 방법. 아래 그림에서 (a)에 해당한다. 생성 이미지에는 증강을 가하지 않는다. 그런데 ada(그림 (b))는 이미지가 생성 된 이후 여기에도 증강을 한다. 그 점이 bCR과 ada의 차이점이다.

(c)를 보면 증강 확률 p에 따라 discriminator가 보는 이미지가 달라진다.

ADA를 사용하지 않을 경우, freeze-D를 더한 2만장의 FFHQ 데이터 셋에서만 과적합이 일어나지 않았다.

ADA를 사용할 경우, 5천 장 이상에서는 과적합이 일어나지 않았다.

사용된 증강 알고리즘

flip, 90도 회전, 병진이동, 스케일링, 임의 회전, 비율을 다르게 한 스케일링, 색상 변환, 이미지-스페이스 필터링, rgb noise주기, 일부 잘라내기 등 다양한 증강 기법을 사용하였다.

결론

ada를 사용할 경우, 소량의 데이터셋으로도 Discriminator의 과적합을 막을 수 있다. 더 좋은 학습 결과를 얻을 수 있다.