본문 바로가기

Data-science/논문 읽기

(31)
[논문 읽기] SeFa - Closed-Form Factorization of Latent Semantics in GANs 핵심 코드 분석 transformation matrix A에 대해 조사해야한다. 왜냐면 An의 최댓값을 이미지 Edit을 최대화 시킬 수 있기 때문이다. 그래서 A^TA의 고유벡터와 고유값을 찾는다. gan_type = parse_gan_type(net.decoder) layers, boundaries, values = factorize_weight(net.decoder, args.layer_idx) generator의 weight와 layer 인덱스를 인자로 받고, 그 결과로 layers, boundarys, values를 내 뱉는다. 문맥상 layers는 이미지 Edit에 관여된 layer들을 의미하고, boundarys가 고유 벡터, values가 고유값을 의미하는 듯하다. 위 값들은 실제 코드에 어떻게 쓰일까? ..
[논문 읽기] End-to-end Recovery of Human Shape and Pose 핵심 정리 논문 2D Image → 3d image keypoints를 다시 projection했을 때 발생하는 reprojection loss를 최소화 하는 게 핵심 이걸 가능하게 하기위해 적대적으로 학습함 (사람의 체형이나 포즈 파라미터가 real 인지 아닌지를) 2d keypoint detection에 의존하지 않고 이미지 픽셀에서 바로 3d 파라미터(체형, 포즈)를 추론한다. 전체적인 기술 설명 이미지가 CNN을 통해 인코딩된다. 인코딩된 latent vector는 3차원 회귀(regression) 모듈에 보내진다. 이 모듈에서 사람의 3차원 형상을 표현하는 걸 배운다. 이 때 회귀모듈에서 나온 3차원 형상을 표현하는 latent vector(s, R, T, 베타, 세타)들은 reprojection erro..
[deep learning 논문 읽기] Stylegan2 ada 이해하기 adaptive discriminator augmentation 알고리즘을 제안 수 천장의 이미지만 있어도 학습 가능 현대의 GAN은 일반적으로 수 만, 수 십 만 장에 해당하는 이미지 데이터셋을 요구한다. 이미지가 부족하면 (작은 데이터셋) 나타나는 문제는 학습중 Discriminator가 과적합(overfitting) 되는 것이다. 과적합 되면 Generator에게 주는 feed back이 무의미해지고, 학습은 발산하기 시작한다. discriminator의 과적합을 막기 위해 증강 방안을 모색한다. 단 생성한 이미지는 증강 효과가 반영돼선 안된다. 위 그림을 보면 140k를 제외한 나머지 데이터 셋 (14만장 이하)의 경우 FID가 어느 순간 증가한다. 과적합 되는 것이다. (b)는 50k 데이터셋의..
[논문 읽기] Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation stylegan이든, stylegan2든 projection 속도가 상당히 느리다. projection? 1. 이미지를 w 차원으로 embedding 시키기 2. w를 generator를 통해 다시 합성하여 이미지 생성하기 실제 이미지를 z, w, w+와 같은 embedding vector 차원으로 인코딩 후 다시 generator를 거쳐 그와 유사한 이미지를 생성하는 것이다. generator를 G라는 함수로, 실제 이미지는 R이라 하면, projection은 G(z), G(w) 혹은 G(w+) 가 R가 최대한 유사하게 되는 z, w, w+를 찾는 과정이다.(latent code를 w 만 생각해보기로 하겠다.) 실제 이미지와 유사하게 만들어야 하므로, opitmization 과정에 쓰이는 Loss는 p..
[논문 읽기] StyleGAN2 Distillation for Feed-forwardImage Manipulation - 2 3.1 Data collection Style mixing 이란? - regularization 기법이다. 다른 스케일에 입력되는 w_1, w_2의 latent code를 사용한다. Face morphing (얼굴이 서서히 변하게 만드는 것)은 이런 w들 사이의 linear interpolation과 관련돼있다. - 각 task 마다 5만장의 샘플을 만들었다. 각 샘플은 2장의 source 이미지와 target 이미지로 이루어진다. 이미지 샘플 생성 과정은 이렇다. 정규 분포에서 임의의 z를 샘플링하고, w로 맵핑 후, stylegan2를 이용해 이미지를 생성한다. 이렇게 각 source 이미지 2장을 생성한다. target 이미지는 대응하는 w에 연산을 수행하고 그 결과 stylegan2에 feedin..
[논문 읽기] StyleGAN2 Distillation for Feed-forwardImage Manipulation - 1 실제 이미지를 임베딩하는 것 (vector, latent code로 표현하는 것)에는 주로 latent code를 역전파로 optimization 하는 과정이 쓰인다. 그런데 이건 매우 느리다. 여기선 stylegan2에 쓰인 이미지 조종 기법을 distillation(선생, 학생 각 네트워크를 이용 정확도 성능을 개선하면서도 좀 더 가볍게 만드는 학습 기법)할 것을 제안한다. 새로운 방식은 pix2pix처럼 paired한 방식으로 훈련된, 이미지 대 이미지 네트워크이다. 이렇게 나온 파이프라인은 기존의 unpaired한 데이터로 훈련된 GAN들을 대체할 수 있다. 사람 얼굴 변형, 성별 변형, 연령 변형, 스타일 변형, 이미지 morphing(모핑, 어떤 모습을 전혀 다른 모습으로 서서히 변형시키는 것..
[논문 이해] Image Based Virtual Try-on Network from Unpaired Data 설명 - 1 openaccess.thecvf.com/content_CVPR_2020/papers/Neuberger_Image_Based_Virtual_Try-On_Network_From_Unpaired_Data_CVPR_2020_paper.pdf 특징 - The training phase requires only single images, eliminating the need for manually creating image pairs, where one image shows a person wearing a particular garment and the other shows the same catalog garment alone. - Secondly, it can synthesize images of multip..
[용어] out-of-the-box가 무슨 말이지... An out-of-the-box feature or functionality (also called OOTB or off the shelf), particularly in software, is a feature or functionality of a product that works immediately after or even without any special installation without any configuration or modification.[1][2] It also means that it is available for all users by default, and are not required to pay additionally to use those features, or ne..

728x90