본문 바로가기

반응형

Data-science/논문 읽기

(31)
[논문 읽기] DRIT ++ 코드와 함께 이해하기, 논문 설명 기본적인 인코딩&디코딩 우선 도메인 A에 있는 이미지들이 인코더 A를 통과하여 콘텐츠 latent vector와 특성 latent. Vector를 출력합니다. B도 마찬가지로 진행합니다. 이후 콘텐츠 latent vector를 서로 교차하여 넣어주고, 특성 latent vector는 각 도메인에 맞게 Generator에 넣어줍니다. A Generator의 경우 도메인 a 특성 latent vector, b 콘텐츠 latent vector를 입력 값으로 받는다고 보시면 됩니다. B Generator의 경우 반대입니다. Reconstruction 과 랜덤 이미지 생성 3의 경우 Reconstruction loss를 위한 항입니다. A 도메인 본래의 특성 latent, 콘텐츠 latent를 A Generato..
[논문 읽기] DRIT++: Diverse Image-to-Image Translation viaDisentangled Representations 핵심만 콘텐츠와 속성 인코더가 각각 있다. 두 벡터를 조건으로해서 $$ G_x $$ 는 이미지를 합성한다. 도메인 판별자 $$D_x$$ 는 이미지가 실제인지 합성된 이미지인지 판단해준다. 콘텐츠 판별자 $$D^c$$는 두 도메인 사이의 추출된 콘텐츠 표현을 구분하도록 훈련 받는다. 입력이미지를 공통된 콘텐츠 C 공간과 각 도메인마다 특정지어지는 특성 공간 Ax, Ay로 임베딩 시킨다. representation dientanglement를 달성하기 위한 두 가지 전략 : 가중치 공유, 콘텐츠 판별자 두 도메인이 공통된 latent space를 공유한다고 가정하고, 콘텐츠 인코더 x,y 의 마지막 layer의 가중치를 서로 공유시킨다. 또 Generator x, y 의 첫번재 layer의 가중치를 공유시킨다. 이..
[논문 읽기] Unpaired Image-to-Image Translationusing Cycle-Consistent Adversarial Networks (Cycle GAN 논문 핵심만 정리) - 적대적 손실 (adversarial loss)을 활용하여 G(X)가 가 Y에서 온 분포와 유사하도록 $$ X \rightarrow Y $$ 맵핑을 학습하는 게 목표 - 이건 제약이 적기 없때문에 inverse mapping을 하나 추가한다. $$ Y \rightarrow X $$ 로 가는 것. 즉, $$ F(G(X)) \approx X $$ 이를 강제하는 cycle consitency loss를 소핸다. 2개의 맵핑 함수가 존재한다. G는 X를 Y로, F는 Y를 X로 맵핑 시키는 함수이다. X, Y는 각각 이미지 도메인이라고 생각하면 된다. $$ D_X $$는 Y에서 생성된 X가 최대한 실제 X 처럼 보이게끔 F를 조절하는 역할을 하고, $$ D_Y $$는 반대다. 그리고 여기서 2가지 사이클 일치 ..
[논문 읽기] Adversarial Texture Optimization from RGB-D Scans - 1 RGB-D 카메라 surface 생성에 있어서 칼라 텍스쳐 생성은 중요한 단계인데, 여전히 좀 첼린징하다. 왜냐하면 카메라 위치가 잘 들어맞지 않고 여러 시각적 오류의 한계가 있기 때문이다. (view dependent imaging artifacts 해석이 어렵다..) conditional GAN의 adversarial loss를 활용하여 texture를 생성한다. 핵심 아이디어는 패치 기반의 조건부 판별자를 학습하는 것이다. 이 판별자가는 텍스쳐 최적화를 가이드해준다. 합성 뷰와 실제 이미지를 받아들여 합성 이미지가 실제 것인지 평가한다. 판별자에게 실제 이미지와 misaligned 된 버전 두 가지를 제공해서 학습한다. - 그래서 적대적 손실 (adversarial loss)이 스캔에서 발생하는 에..
[딥러닝] Star gan v2 논문 읽기 X, Y 도메인에 대해 X 도메인에 속한 이미지를 x, Y 도메인에 속한 이미지를 y라하자. - 목표 : x에 대응되는 각 y 도메인의 이미지를 생성 시키는 하나의 Generator를 훈련시키는 것 각 도메인의 스타일 공간에서 학습된, specific한 스타일 벡터를 생성시키고 G가 스타일 벡터를 반영하도록 훈련한다. 4가지 모듈이 있다. Generator(생성자), Mapping network(맵핑 네트워크), Style Encoder (스타일 인코더), Discriminator(판별자) - 생성자 : 생성자는 이미지 x를 맵핑 네트워크 F를 통해 주어지거나 스타일 인코더 E를 통해 주어진, 특정 스타일 벡터 s를 반영하여 G(x, s)로 tranlsation 시킨다. s를 생성자에 주입하기 위해 Ad..
[논문 읽기] Unsupervised Image to Image translation via pretrained stylegan2 network Abstract 새로운 I2I 방법! - pretrained stylegan2를 이용 (소스 도메인) - 역변환 방법 (이미지 -> latent vector) Introduction Generator가 2개인데 하나는 domain X에서 무언가를 만든다. 이를 $G_{X}$라하자. Generator는 domain Y에서 이미지를 생성한다. 이를 $G_{Y}$라고 하자. z라는 latent code 가 주어졌을 때 이미지 X를 생성할 수 있다. 즉 $G_{X}(z)$, $G_{Y}(z)$를 생성하는데 이 둘의 이미지는 뭔가 유사하지만 domain만 다른 것이 되도록 해야 한다. 이 방법은?? $G_{X}$ 를 Y 도메인 데이터로 파인 튜닝하는 것이다. 구체적으로는 FreezeFC라고 한다. Style Fu..
[논문 읽기] Exploring the structure of a real-time, arbitrary neuralartistic stylization network - 2 - 네트워크가 명시적으로 훈련받은 스타일에만 작용한다. - 한 번도 보지못한, 혹은 많은 스타일에 대해서도 성능을 갖는 것이 목표. 이 방법의 장점 : 테스트 타임에 처음 보는 이미지에 대해 적절한 스타일을 예측할 수 있다! PCA를 한뒤, 중심 축을 평균, 각각 +- 2표준 편차씩 움직여서 변화를 봤다. style 이미지와 linear ineterpolation도 가능한 듯하다. github.com/magenta/magenta/tree/master/magenta/models/arbitrary_image_stylization magenta/magenta Magenta: Music and Art Generation with Machine Intelligence - magenta/magenta github...
[논문 읽기] Exploring the structure of a real-time, arbitrary neuralartistic stylization network 1 이전 논문은 이미지 하나당 optimization을 해야했다면 이 논문은 이런 점을 보완했다. (2015) A Neural Algorithm of Artistic Style 각각의 loss가 있다. style 이미지가 주어지면 style 예측 네트워크 P에서 S를 추출한다. 이게 style tranfer 네트워크 T에 콘텐츠 이미지 (입력이미지) 입력된다. 콘텐츠 이미지와 S가 T에 더해져 스타일이 입혀진 이미지가 생성된다. - Style loss 스타일이 입혀진 이미지 VS 스타일 이미지 - Content loss 스타일이 입혀진 이미지 VS 콘텐츠 이미지 각각 거리를 최소화하는 방식으로 작동하기에, 콘텐츠의 내용을 잃지 않으면서 스타일을 학습할 수 있는 것이다. 두 이미지 Content가 유사하다 :..

728x90
반응형