diff --git a/_sources/docs/review/NeRF.md b/_sources/docs/review/NeRF.md
index 5d12c18b..96f9ad4a 100755
--- a/_sources/docs/review/NeRF.md
+++ b/_sources/docs/review/NeRF.md
@@ -12,7 +12,7 @@
# NeRF : Representing Scenes as Neural Radiance Fields for View Synthesis
-[](https://youtu.be/uLR1RNqJ1Mw?t=0s)
+[](https://www.youtube.com/watch?v=JuH79E8rdKc)
- 기존의 3D object 자체를 구성하여 렌더링하는 explicit method → 저장 용량이 많이 소요
- NeRF 는 3D object 자체를 구성하지 않는, **synthesizing novel views**
@@ -27,21 +27,25 @@
- **NeRF**
- 한정된 수의 입력 뷰 이미지들을 사용
- continous volumetric scene 함수 최적화를 통해 **synthesizing novel views** 에서 SOTA 달성
+
- **Algorithm**
- **FC layer 사용 (non-convolutional)**
- **input** : 5 차원 좌표 (공간적 위치$(x, y, z)$ & 바라보는 방향$(\theta, \phi))$
- **output** : volume density와 해당 방향에 대한 색상 값
- 5 차원 좌표 입력 → 카메라 광선을 따라 RGB 값, Volume density 예측
→ 고전적 Volume rendering 기술을 사용하여 image 로 합성
+
- 복잡한 구조 및 외형을 갖는 scene 에 대한 **Novel views rendering** 을 위해 **NeRF** 를 최적화하는 방법을 제시 (+ Positional Encoding, Hierarchical volume sampling)
+
- 실험을 통해 기존 작업을 능가하는 결과를 입증
+
- **Keywords :** scene representation, view synthesis, image-based rendering,
volume rendering, 3D deep learning
:::{figure-md}
- {method that optimizes a continuous 5D neural radiance field representation} \ (source: {https://arxiv.org/pdf/2003.08934v2})
+ method that optimizes a continuous 5D neural radiance field representation \ (source: {https://arxiv.org/pdf/2003.08934v2})
:::
@@ -53,12 +57,10 @@
---
- **정적 장면 → 연속적인 $5 \mathrm{D}$ 함수로 표현**
-
- FC layer = Regression Function :
a single $5 \mathrm{D}$ coord $(x, y, z, \theta, \phi)$ → density, view-dependent RGB color
- **Output**
-
- 공간 상의 각 지점 $(x, y, z)$에서 각 방향 $(\theta, \phi)$ 으로 방출된 색상
- 각 지점 $(x, y, z)$ 의 밀도(density) = $\sigma$
- 밀도의 누적값을 통해 얼마나 많은 빛이 $(𝑥,𝑦,𝑧)$ 를 통과하는 광선에 의해 누적되는지를 표현
@@ -81,7 +83,6 @@
---
- **NeRF 최적화의 Basic implementation의 한계 및 대안**
-
1. **복잡한 장면에 대해서 충분히 고해상도 표현으로 수렴되지 않음**
- positional encoding 으로 입력 5D 좌표를 변환
- MLP가 더 높은 주파수의 함수를 나타낼 수 있음.
@@ -95,7 +96,6 @@
- 복잡한 실세계의 기하학적 형태와 외형을 표현 가능
- 투영된 이미지를 사용한 Gradient-based 최적화에 적합
- 고해상도에서 복잡한 장면을 모델링할 때 이산화된 복셀 그리드의 엄청난 저장 비용을 극복
-
- **Voxel (Volume + Pixel)**
3차원 공간에서 체적의 기본 단위 (2차원의 경우에선 pixe)
@@ -111,6 +111,7 @@
---
+
- **Technical contributions**
- 복잡한 기하학과 소재를 가진 연속적인 장면을 5차원 NeRF 로 나타내는 접근 방법, 기본 MLP 네트워크로 매개변수화
- 고전적인 볼륨 렌더링 기법을 기반으로 한 미분 가능한 렌더링 절차를 사용하여 이러한 표현을 표준 RGB 이미지로부터 최적화하는 방법을 제안
@@ -121,7 +122,7 @@
:::{figure-md}
-{An overview of our neural radiance field scene representation and differentiable rendering procedure} \ (source: {https://arxiv.org/pdf/2003.08934v2})
+An overview of our neural radiance field scene representation and differentiable rendering procedure \ (source: {https://arxiv.org/pdf/2003.08934v2})
:::
@@ -149,13 +150,12 @@
2. **a** 의 feature 벡터는 카메라 광선의 시점 방향과 concat
3. 뷰에 따른 RGB 색상을 출력하는 하나의 추가 fully-connected layer (ReLU,128개 채널 사용)로 전달됨
-
- 
- :::{figure-md}
-
+ :::{figure-md}
+
+
+ fully-connected network architecture\ (source: {https://arxiv.org/pdf/2003.08934v2})
+ :::
- {fully-connected network architecture} \ (source: {https://arxiv.org/pdf/2003.08934v2})
- :::
- **View 를 고려하여 색상을 예측해야 하는 이유 : non-Lambertian effects**
- **Lambertian 효과**
@@ -165,14 +165,12 @@
:::{figure-md}
- (source: {https://arxiv.org/pdf/2003.08934v2})
:::
- Fig. 4 : view dependence 를 고려하지 않고 (only $\mathbf{x}$ input) 학습된 모델은 반사성(specularity)을 표현하는데 어려움이 있음
:::{figure-md}
- (source: {https://arxiv.org/pdf/2003.08934v2})
:::
@@ -316,14 +314,14 @@ $$
:::{figure-md}
- {intrinsic prameter and extrinsic parameter}
+ intrinsic prameter and extrinsic parameter
:::
- 카메라 영상 : 3차원 공간상의 점들을 2차원 이미지 평면에 투사(perspective projection)
:::{figure-md}
- {perspective projection}
+ perspective projection
:::
- **Training**
@@ -366,7 +364,7 @@ $$
:::{figure-md}
- {Diffuse Synthetic : Lambertian, Realistic Synthetic : non-Lambertian}
+ Diffuse Synthetic : Lambertian, Realistic Synthetic : non-Lambertian
:::
1. **Diffuse / Synthetic** $360\degree$
@@ -409,7 +407,7 @@ $$
:::{figure-md}
- {Diffuse Synthetic : Lambertian, Realistic Synthetic : non-Lambertian}
+ Diffuse Synthetic : Lambertian, Realistic Synthetic : non-Lambertian
:::
- **Ghosting :** 렌더링에서의 객체 겹침 혹은 번짐
@@ -420,7 +418,7 @@ $$
:::{figure-md}
- {NeRF also correctly reconstructs partially occluded regions}
+ NeRF also correctly reconstructs partially occluded regions
:::
### 6.4 Ablation studies
@@ -434,7 +432,7 @@ $$
:::{figure-md}
- {ablation study}
+ ablation study
:::
@@ -454,7 +452,7 @@ adding random Gaussian noise with zero mean and unit variance to the **output σ
:::{figure-md}
>
- {fully-connected network architecture} \ (source: {https://arxiv.org/pdf/2003.08934v2})
+ fully-connected network architecture \ (source: {https://arxiv.org/pdf/2003.08934v2})
:::
- Coarse network 64 + fine network 128 = 192
diff --git a/docs/experiments/js_exp.html b/docs/experiments/js_exp.html
index 7747d4f7..c2ab9fb4 100755
--- a/docs/experiments/js_exp.html
+++ b/docs/experiments/js_exp.html
@@ -502,7 +502,7 @@
DreamBooth 를 실험하면서 대표적으로 instance prompt, guidance scale, negative prompt, 그리고 마지막으로 prior preservation loss 를 반영하는 정도를 조절하는 prior_loss_weight 를 바꿔가면서 학습해보았습니다. 사전학습된 text-to-image 모델로 처음에는 hakurei/waifu-diffusion 모델을 시도해봤지만 결과가 만족스럽지 못해 runwayml/stable-diffusion-v1-5 모델로 fine-tuning 작업을 진행했습니다.
Inference step 을 늘려가면서 추론된 인물 이미지의 퀄리티가 상승하는 부분도 확인할 수 있었습니다. 또한, guidance scale 에 대한 실험도 진행했는데 guidance scale 이 작을수록 prompt 와 무관한 random 한 이미지들을 생성하게 됩니다. 최종적으로 num_inference steps 와 guidance scale 의 값은 각각 100 과 7.5 로 설정하였습니다.
마지막으로 하단의 좌측과 우측 사진은 각각 “A photo of sks girl” 그리고 “A photo of a girl in the style of sks” 이라는 prompt 로 DreamBooth 모델을 각각 학습한 후, 나비를 생성하라는 동일한 prompt 로 추론해본 결과입니다. sks 가 수식하는 명사가 girl 이 아닌 style 이도록 prompt 를 수정함으로써, butterfly 사진을 생성할때 조금이나마 더 프리드로우 웹툰의 그림체를 반영할 수 있었던 부분도 확인할 수 있었습니다.
Fig. 546 {An overview of our neural radiance field scene representation and differentiable rendering procedure} \ (source: {https://arxiv.org/pdf/2003.08934v2})#
+
Fig. 546 An overview of our neural radiance field scene representation and differentiable rendering procedure \ (source: {https://arxiv.org/pdf/2003.08934v2})#