본문 바로가기

분류 전체보기

(290)
RuntimeError: cuDNN error: CUDNN_STATUS_NOT_SUPPORTED. This error may appear if you passed in a non-contiguous input 에러 해결법 #RuntimeError: cuDNN error: CUDNN_STATUS_NOT_SUPPORTED. This error may appear if you passed in a non-contiguous input Batch-size를 줄여준다. 해결 완료.
[numpy] list of array -> numpy array 변환 list of array를 np.array로 변환하면 (1000,3)이 될 줄 알았지만 그렇지 않았다. array shape가 (1000,) 인데 array[0]을 입력하면 다음과 같이 나온다. np.vstack 혹은 np.hstack을 해주면 되는데, 이 경우에는 np.vstack이 맞다. np.vstack(xyz_values) https://stackoverflow.com/questions/21046417/python-conversion-of-list-of-arrays-to-2d-array/32787788 Python - Conversion of list of arrays to 2D array I have a dataset that is formatted like this: A=[(Num1,Num2,..
[matplotlib] 새창에서 plt.show()보기, 3d 그래프 회전 시키면서 보기 pip install Pyqt5를 한다. import matplotlib matplotlib.use('Qt5Agg')
[numpy] 이미지 채널 축 변경 배치 사이즈가 0번째 축이라고 가정했을 때 (5, 256, 256, 3) 이라는 이미지가 있고 (B, W, H, C) 이를 (5, 3, 256, 256) 차원으로 변경하려면 np.rollaxis(3, 1) 3번 축을 1번 축까지 굴림.
[논문 읽기] MeshTransformer, End-to-End Human Pose and Mesh Reconstruction with Transformers. CNN과 Multi-Layer Transformer Encoder를 적용함 우선 imageNet classification 과제로 사전 학습된 CNN 을 이용해서 feature vector를 추출하고 (차원은 2048) 이걸 transformer가 regression하는 입력 값으로 넣어준다. 고해상도 이미지일 경우 3D 바디 조인트나 메쉬 regression에서 좀 더 이득이 있다. 현존하는 트랜스포머 인코더 구조는 모든 레이어에서 히든 임베딩의 차원이 상수값으로 일정하게 고정되어 있어서 이를 바로 사용할 수는 없었다. 그래서 새로운 구조를 창안했는데, 점진적으로 각 인코딩 레이어를 거치며 히든 임베딩의 차원을 줄이는 것이다. 인코더 레이어를 여러개 추가함으로써 모델은 self-attentions과 차..
[논문 읽기] Learnable Triangulation of Human Pose -1 1. 미분가능한 대수 삼각화(삼각형만들기 연산), 입력 이미지들로부터 컨피던스 가중치를 추가하여 구함 2. 중간에 나오는 2D backbone 피쳐맵 결과로 부터 volumetric 하게 aggregation하는 방법. -> 3D conv로 3D joint 히트맵을 생성할 수 있고, 이건 사람의 자세를 모델링 할 수 있게 해준다. 두 방법 모두 처음부터 끝까지 미분 가능한 연산이라 타겟 지표를 직접적으로 최적화할 수 있다. 각 뷰에서 바라본 이미지가 독립적으로 처리돼서 삼각화 된다. H는 backbone을 거쳐 나온 히트맵이다. 이차원 위치를 계산하기 위해 공간 축에 대해 softmax를 계산한다. 그러면 히트맵의 무게 중심으로서 관절의 2D 위치를 계산한다. soft-argmax 의 중요한 특징은 gr..
[논문 읽기] DRIT ++ 코드와 함께 이해하기, 논문 설명 기본적인 인코딩&디코딩 우선 도메인 A에 있는 이미지들이 인코더 A를 통과하여 콘텐츠 latent vector와 특성 latent. Vector를 출력합니다. B도 마찬가지로 진행합니다. 이후 콘텐츠 latent vector를 서로 교차하여 넣어주고, 특성 latent vector는 각 도메인에 맞게 Generator에 넣어줍니다. A Generator의 경우 도메인 a 특성 latent vector, b 콘텐츠 latent vector를 입력 값으로 받는다고 보시면 됩니다. B Generator의 경우 반대입니다. Reconstruction 과 랜덤 이미지 생성 3의 경우 Reconstruction loss를 위한 항입니다. A 도메인 본래의 특성 latent, 콘텐츠 latent를 A Generato..
[논문 읽기] DRIT++: Diverse Image-to-Image Translation viaDisentangled Representations 핵심만 콘텐츠와 속성 인코더가 각각 있다. 두 벡터를 조건으로해서 $$ G_x $$ 는 이미지를 합성한다. 도메인 판별자 $$D_x$$ 는 이미지가 실제인지 합성된 이미지인지 판단해준다. 콘텐츠 판별자 $$D^c$$는 두 도메인 사이의 추출된 콘텐츠 표현을 구분하도록 훈련 받는다. 입력이미지를 공통된 콘텐츠 C 공간과 각 도메인마다 특정지어지는 특성 공간 Ax, Ay로 임베딩 시킨다. representation dientanglement를 달성하기 위한 두 가지 전략 : 가중치 공유, 콘텐츠 판별자 두 도메인이 공통된 latent space를 공유한다고 가정하고, 콘텐츠 인코더 x,y 의 마지막 layer의 가중치를 서로 공유시킨다. 또 Generator x, y 의 첫번재 layer의 가중치를 공유시킨다. 이..

728x90