diff --git a/_images/Untitled.png b/_images/Untitled.png index e10257fb..6515bf44 100755 Binary files a/_images/Untitled.png and b/_images/Untitled.png differ diff --git a/_sources/docs/review/zero123.md b/_sources/docs/review/zero123.md index 7b905bcc..54b055f0 100755 --- a/_sources/docs/review/zero123.md +++ b/_sources/docs/review/zero123.md @@ -1,4 +1,4 @@ -# zero 1-to-3 : Zero-shot One Image to 3D Object +# zero 123 ``` {admonition} Information - **Title:** zero 1-to-3 : Zero-shot One Image to 3D Object @@ -46,13 +46,9 @@ 4. **Zero 1-to-3 를 제안** - **Zero 1-to-3 :** - Stable Diffusion과 같은 large-scale diffusion 모델이 단일 RGB 이미지를 입력으로, - - - - 를 수행하기 위해 **카메라 view point(시점)을 조작을 컨트롤하는 매커니즘 학습** + 를 수행하기 위해 **카메라 view point(시점)을 조작을 컨트롤하는 매커니즘 학습** - 주어진 단일 RGB 이미지 입력하에 이러한 TASK를 수행 하는 것은 매우 많은 제약이 존재 → Diffusion 모델을 기반으로 다양한 시점에서 방대한 객체 이미지를 생성하여 이용 @@ -86,7 +82,7 @@ - [**기존 접근 방식**:](https://velog.io/@dldydldy75/3D-Understanding) :::{figure-md} - tag + tag ::: 1. **데이터 수집 형태에 따른 전역적인(global) 특성 기반의 조건화 모델** @@ -134,7 +130,7 @@ 2. **인터넷 규모 데이터셋에 반영된 뷰포인트 편향** : 생성 모델들은 인터넷에서 반영된 시점 편향을 물려받아, 특정한 자세 및 시점에서의 이미지를 생성하는 경향 존재 :::{figure-md} - tag + tag ::: @@ -146,14 +142,14 @@ - **접근법 [Figure3]** :::{figure-md} - tag + tag ::: - 사전 훈련된 diffusion 모델을 미세조정하여 나머지 표현을 손상시키지 않고 카메라 파라미터를 제어하도록 학습. - **Latent Diffusion Architecture 를 이용** - **[참고] LDM** :::{figure-md} - tag + tag ::: - Encoder($\mathcal{E}$), Denoiser(U-Net, $\epsilon_\theta$), Decoder($\mathcal{D}$)로 구성 - **The Objective** @@ -212,7 +208,7 @@ - $\nabla \mathcal{L}_{SJC}$ : PAAS 스코어 :::{figure-md} - tag + tag ::: - 입력 뷰와의 **MSE** 손실로 최적화 @@ -312,18 +308,18 @@ ## 4.4. Novel View Synthesis Results :::{figure-md} -tag +tag ::: - **Table 2** : RTMV에서의 새로운 뷰 합성 결과. RTMV의 장면은 Objaverse 훈련 데이터와 분포가 다르지만, 우리의 모델은 여전히 기준선을 상당한 차이로 능가. :::{figure-md} -tag +tag ::: - **Figure 5 : Novel view synthesis on Google Scanned Object** 왼쪽에 표시된 입력 뷰는 두 개의 무작위 샘플링된 새로운 뷰를 합성하는 데 사용됨. 해당하는 실제 뷰는 오른쪽에 표시되어 있음. 기준 방법들과 비교할 때, 우리가 합성한 새로운 뷰는 실제와 매우 일치하는 풍부한 텍스트 및 기하학적 세부 사항을 포함하고 있으며, 반면 기준 방법들은 고주파 세부 사항의 유의미한 손실을 보임. :::{figure-md} -tag +tag ::: - **Figure 6 Novel view synthesis on RTMV** 왼쪽에 표시된 입력 뷰는 두 개의 무작위로 샘플링된 새로운 뷰를 합성하는 데 사용됨. 오른쪽에는 해당하는 실제 뷰가 표시됨. 우리가 합성한 뷰는 큰 카메라 시점 변화가 있을 때조차도 높은 충실도를 유지하며, 대부분의 다른 방법들은 품질이 급격히 저하됨. @@ -333,7 +329,7 @@ - 그러나 생성된 포인트 클라우드의 크기가 작아 Point-E가 새로운 뷰 합성(novel view synthesis)에서의 적용 가능성을 제한함. :::{figure-md} -tag +tag ::: - **Figure 7 Novel view synthesis on in-the-wild images.** @@ -343,7 +339,7 @@ - 입력 이미지가 2D이기 때문에 항상 객체의 부분적인 뷰만을 나타내고 많은 부분이 관찰되지 않으므로, diffusion 을 통해 다양한 시점에서 샘플들을 랜덤으로 생성 :::{figure-md} -tag +tag ::: - Figure 8: 입력 뷰를 고정하고, 다양한 시점에서 새로운 샘플을 랜덤으로 생성하여 시각화 @@ -352,16 +348,16 @@ ## 4.5. 3D Reconstruction Results :::{figure-md} -tag +tag ::: - 실제 ground truth 와 유사한 고충실도의 3D 메쉬를 reconstruct :::{figure-md} -tag +tag ::: :::{figure-md} -tag +tag ::: - **MCC (Multiview Compressive Coding)**: @@ -376,7 +372,7 @@ ## 4.6. Text to Image to 3D- :::{figure-md} -tag +tag ::: - 실제 환경에서 촬영된 이미지 외에도, Dall-E-2와 같은 txt2img 모델이 생성한 이미지에 대해서도 테스트 diff --git a/_sources/intro.md b/_sources/intro.md index b2191e70..228b2b64 100755 --- a/_sources/intro.md +++ b/_sources/intro.md @@ -45,4 +45,4 @@ CVPR 2024 Workshop - 한동현 [Donghyun Han] | [GitHub](https://github.com/donghyun99) | [Linkedin](https://www.linkedin.com/in/donghyun99/) | - 이창환 [ChangHwan Lee] | [Github](https://github.com/Hwan-I) | Linkedin - 유경민 [Kyeongmin Yu] | [Github](https://github.com/yukyeongmin) | Linkdedin | -- 이정인 [Jeongin Lee] | Github | Linkdedin | \ No newline at end of file +- 이정인 [Jeongin Lee] | Github | [Linkdedin](https://www.linkedin.com/in/innimu/) | \ No newline at end of file diff --git a/docs/review/DreamFusion.html b/docs/review/DreamFusion.html index f9c6b1a3..20900b5c 100755 --- a/docs/review/DreamFusion.html +++ b/docs/review/DreamFusion.html @@ -321,7 +321,7 @@ -
  • zero 1-to-3 : Zero-shot One Image to 3D Object
  • +
  • zero 123
  • diff --git a/docs/review/DreamPose.html b/docs/review/DreamPose.html index 361ffe00..b38b6e7f 100755 --- a/docs/review/DreamPose.html +++ b/docs/review/DreamPose.html @@ -321,7 +321,7 @@ -
  • zero 1-to-3 : Zero-shot One Image to 3D Object
  • +
  • zero 123
  • diff --git a/docs/review/zero123.html b/docs/review/zero123.html index f53a0cf7..839bcf6c 100755 --- a/docs/review/zero123.html +++ b/docs/review/zero123.html @@ -9,7 +9,7 @@ - zero 1-to-3 : Zero-shot One Image to 3D Object — Text-to-Image Generation-feat-Diffusion + zero 123 — Text-to-Image Generation-feat-Diffusion @@ -321,7 +321,7 @@ -
  • zero 1-to-3 : Zero-shot One Image to 3D Object
  • +
  • zero 123
  • @@ -534,7 +534,7 @@
    -

    zero 1-to-3 : Zero-shot One Image to 3D Object

    +

    zero 123

    @@ -544,7 +544,7 @@

    Contents