Skip to content

Latest commit

 

History

History
303 lines (301 loc) · 162 KB

weekly_nerf_cn.md

File metadata and controls

303 lines (301 loc) · 162 KB

每周分类神经辐射场 Awesome

NeRF研究QQ大群(300+成员):706949479

按类别筛选:

全部 | 动态 | 编辑 | 快速 | 泛化 | 人体 | 视频 | 光照 | 重建 | 纹理 | 语义 | 姿态-SLAM | 其他

Sep4 - Sep10, 2022

  • PixTrack:使用 NeRF 模板和特征度量对齐的精确 6DoF 对象姿势跟踪 | [code]

    我们提出了 PixTrack,这是一个基于视觉的对象姿态跟踪框架,使用新颖的视图合成和深度特征度量对齐。我们的评估表明,我们的方法可以对 RGB 图像中的对象进行高度准确、稳健且无抖动的 6DoF 姿态估计,而无需任何数据注释或轨迹平滑。我们的方法在计算上也很高效,可以轻松进行多对象跟踪,而无需更改我们的方法,并且只使用 CPU 多处理。

  • 具有深度神经表示的隐式全波形反演 | [code]

    全波形反演(FWI)通常代表最先进的地下结构和物理参数成像方法,然而,其实施通常面临巨大挑战,例如建立一个良好的初始模型以摆脱局部最小值,以及评估反演结果的不确定性。在本文中,我们提出了使用连续和隐式定义的深度神经表示的隐式全波形反演(IFWI)算法。与对初始模型敏感的 FWI 相比,IFWI 受益于深度学习优化增加的自由度,从而允许从随机初始化开始,这大大降低了非唯一性和陷入局部最小值的风险。理论和实验分析均表明,在给定随机初始模型的情况下,IFWI 能够收敛到全局最小值,并生成具有精细结构的地下高分辨率图像。此外,IFWI 的不确定性分析可以很容易地通过使用各种深度学习方法近似贝叶斯推理来执行,本文通过添加 dropout 神经元对其进行分析。此外,IFWI具有一定的鲁棒性和较强的泛化能力,在各种二维地质模型的实验中得到了体现。通过适当的设置,IFWI也可以很好地适用于多尺度联合地球物理反演。

  • 具有学习几何先验的 3D 纹理形状恢复 | [code]

    从部分扫描中恢复 3D 纹理形状对于许多实际应用至关重要。现有方法已经证明了隐式函数表示的有效性,但它们存在严重遮挡和不同对象类型的部分输入,这极大地阻碍了它们在现实世界中的应用价值。本技术报告介绍了我们通过结合学习几何先验来解决这些限制的方法。为此,我们从学习的姿势预测中生成一个 SMPL 模型,并将其融合到部分输入中,以添加人体的先验知识。我们还提出了一种新颖的完整性感知边界框自适应,用于处理不同级别的尺度和部分扫描的局部性。

  • SIRA:来自单个图像的可重新点亮的头像 | [code]

    从单个图像中恢复人头的几何形状,同时分解材料和照明是一个严重不适定的问题,需要解决先验信息。基于 3D 可变形模型 (3DMM) 的方法,以及它们与可微渲染器的组合,已显示出可喜的结果。然而,3DMM 的表现力是有限的,它们通常会产生过度平滑且与身份无关的 3D 形状,仅限于面部区域。最近已经通过使用多层感知器参数化几何形状的神经场获得了高度准确的全头重建。这些表示的多功能性也被证明对于解开几何、材料和照明是有效的。然而,这些方法需要几十个输入图像。在本文中,我们介绍了 SIRA,这是一种从单个图像重建具有高保真几何形状和分解光和表面材料的人头头像的方法。我们的关键成分是两个基于神经场的数据驱动统计模型,可解决单视图 3D 表面重建和外观分解的模糊性。实验表明,SIRA 在 3D 头部重建中获得了最先进的结果,同时它成功地解开了全局照明、漫反射和镜面反射率。此外,我们的重建适用于基于物理的外观编辑和头部模型重新照明。

  • 神经特征融合领域:自监督 2D 图像表示的 3D 蒸馏, 3DV2022(oral) | [code]

    我们提出了神经特征融合场 (N3F),这是一种在将密集 2D 图像特征提取器应用于可重构为 3D 场景的多张图像分析时改进密集 2D 图像特征提取器的方法。给定一个图像特征提取器,例如使用自我监督进行预训练,N3F 使用它作为教师来学习在 3D 空间中定义的学生网络。 3D 学生网络类似于提取所述特征的神经辐射场,并且可以使用通常的可微渲染机器进行训练。因此,N3F 很容易适用于大多数神经渲染公式,包括 vanilla NeRF 及其对复杂动态场景的扩展。我们表明,我们的方法不仅能够在不使用手动标签的情况下在特定场景的神经领域的上下文中实现语义理解,而且在自我监督的 2D 基线上持续改进。这通过考虑不同序列中的各种任务(例如 2D 对象检索、3D 分割和场景编辑)来证明,包括 EPIC-KITCHENS 基准测试中的以自我为中心的长视频。

  • MotionDiffuse:使用扩散模型的文本驱动人体运动生成 | [code]

    人体运动建模对于许多现代图形应用程序很重要,这些应用程序通常需要专业技能。为了消除外行的技能障碍,最近的动作生成方法可以直接生成以自然语言为条件的人体动作。然而,通过各种文本输入实现多样化和细粒度的运动生成仍然具有挑战性。为了解决这个问题,我们提出了 MotionDiffuse,这是第一个基于扩散模型的文本驱动的运动生成框架,它展示了现有方法的几个所需属性。 1)概率映射。 MotionDiffuse 不是确定性的语言-运动映射,而是通过一系列注入变化的去噪步骤生成运动。 2)现实综合。 MotionDiffuse 擅长对复杂的数据分布进行建模并生成生动的运动序列。 3) 多级操作。 MotionDiffuse 响应身体部位的细粒度指令,以及带有时变文本提示的任意长度运动合成。我们的实验表明,MotionDiffuse 在文本驱动的运动生成和动作条件的运动生成方面具有令人信服的优势,从而优于现有的 SoTA 方法。定性分析进一步证明了 MotionDiffuse 对综合运动生成的可控性。主页:此 https 网址

Aug28 - Sep3, 2022

  • 使用有符号射线距离函数 (SRDF) 的多视图重建 | [code]

    在本文中,我们解决了多视图 3D 形状重建的问题。尽管最近与隐式形状表示相关的可微渲染方法提供了突破性的性能,但它们的计算量仍然很大,并且通常在估计的几何形状上缺乏精度。为了克服这些限制,我们研究了一种新的计算方法,它建立在一种新的体积形状表示上,就像最近的可微渲染方法一样,但用深度图参数化以更好地实现形状表面。与此表示相关的形状能量评估给定彩色图像的 3D 几何形状,不需要外观预测,但在优化时仍然受益于体积积分。在实践中,我们提出了一种隐式形状表示,SRDF,它基于我们通过沿相机光线的深度参数化的有符号距离。相关的形状能量考虑了深度预测一致性和光度一致性之间的一致性,这在体积表示中的 3D 位置。可以考虑各种照片一致性先验,例如基于中值的基线,或更详细的标准,如学习函数。该方法保留了深度图的像素精度,并且是可并行化的。我们在标准数据集上的实验表明,它提供了关于最近使用隐式形状表示的方法以及传统的多视图立体方法的最先进的结果。

  • Dual-Space NeRF:在不同空间中学习动画化身和场景照明, 3DV2022 | [code]

    在规范空间中对人体进行建模是捕捉和动画的常见做法。但是当涉及到神经辐射场 (NeRF) 时,仅仅在标准空间中学习一个静态的 NeRF 是不够的,因为即使场景照明是恒定的,当人移动时身体的照明也会发生变化。以前的方法通过学习每帧嵌入来缓解光照的不一致性,但这种操作并不能推广到看不见的姿势。鉴于光照条件在世界空间中是静态的,而人体在规范空间中是一致的,我们提出了一种双空间 NeRF,它在两个独立的空间中使用两个 MLP 对场景光照和人体进行建模。为了弥合这两个空间,以前的方法主要依赖于线性混合蒙皮 (LBS) 算法。然而,动态神经领域的 LBS 的混合权重是难以处理的,因此通常用另一个 MLP 来记忆,这不能推广到新的姿势。尽管可以借用 SMPL 等参数网格的混合权重,但插值操作会引入更多伪影。在本文中,我们建议使用重心映射,它可以直接泛化到看不见的姿势,并且出人意料地取得了比具有神经混合权重的 LBS 更好的结果。 Human3.6M 和 ZJU-MoCap 数据集的定量和定性结果显示了我们方法的有效性。

  • FoV-NeRF:虚拟现实的中心凹神经辐射场, TVCG2022 | [code]

    随着消费者显示器和商业 VR 平台的兴起,虚拟现实 (VR) 正变得无处不在。这种显示需要低延迟和高质量的合成图像渲染,同时减少计算开销。神经渲染的最新进展表明,有望通过基于图像的虚拟或物理环境表示来解锁 3D 计算机图形的新可能性。具体来说,神经辐射场 (NeRF) 表明,可以在不损失与视图相关的效果的情况下实现 3D 场景的照片般逼真的质量和连续视图变化。虽然 NeRF 可以显着受益于 VR 应用的渲染,但它面临着由高视场、高分辨率和立体/以自我为中心的观看带来的独特挑战,通常会导致渲染图像的低质量和高延迟。在 VR 中,这不仅会损害交互体验,还可能导致疾病。为了解决 VR 中的六自由度、以自我为中心和立体 NeRF 的这些问题,我们提出了第一个注视条件 3D 神经表示和视图合成方法。我们将视觉和立体敏锐度的人类心理物理学纳入 3D 风景的以自我为中心的神经表示中。然后,我们共同优化延迟/性能和视觉质量,同时相互桥接人类感知和神经场景合成,以实现感知上高质量的沉浸式交互。我们进行了客观分析和主观研究,以评估我们方法的有效性。我们发现我们的方法显着减少了延迟(与 NeRF 相比减少了高达 99% 的时间),而不会损失高保真渲染(在感知上与全分辨率地面实况相同)。所提出的方法可能是迈向未来实时捕捉、传送和可视化远程环境的 VR/AR 系统的第一步。

  • 跨光谱神经辐射场, 3DV2022 | [code]

    我们提出了 X-NeRF,这是一种基于神经辐射场公式的学习交叉光谱场景表示的新方法,该方法给定从具有不同光谱灵敏度的相机捕获的图像。 X-NeRF 在训练期间优化跨光谱的相机姿势,并利用归一化跨设备坐标 (NXDC) 从任意视点呈现不同模态的图像,这些图像对齐并具有相同的分辨率。对 16 个具有彩色、多光谱和红外图像的前向场景进行的实验证实了 X-NeRF 在建模交叉光谱场景表示方面的有效性。

  • 克隆:用于占用网格辅助神经表示的相机-激光雷达融合 | [code]

    本文提出了 CLONeR,它通过允许对从稀疏输入传感器视图观察到的大型户外驾驶场景进行建模,显着改进了 NeRF。这是通过将 NeRF 框架内的占用和颜色学习解耦为分别使用 LiDAR 和相机数据训练的单独的多层感知器 (MLP) 来实现的。此外,本文提出了一种在 NeRF 模型旁边构建可微分 3D 占用网格图 (OGM) 的新方法,并利用此占用网格改进沿射线的点采样,以在度量空间中进行体积渲染。

  • NerfCap:使用动态神经辐射场捕获人类表现, TVCG2022 | [code]

    本文解决了从稀疏的多视图或单目视频中捕捉人类表演的挑战。给定表演者的模板网格,以前的方法通过将模板网格非刚性地注册到具有 2D 轮廓或密集光度对齐的图像来捕获人体运动。然而,详细的表面变形无法从轮廓中恢复,而光度对齐则受到视频外观变化引起的不稳定性的影响。为了解决这些问题,我们提出了 NerfCap,这是一种基于表演者动态神经辐射场 (NeRF) 表示的新型表演捕捉方法。具体来说,通过优化变形场和规范 NeRF 的外观模型,从模板几何初始化规范 NeRF 并注册到视频帧。为了捕捉大型身体运动和详细的表面变形,NerfCap 将线性混合蒙皮与嵌入式图形变形相结合。与受限于固定拓扑和纹理的基于网格的方法相比,NerfCap 能够灵活地捕捉视频中复杂的几何形状和外观变化,并合成更逼真的图像。此外,NerfCap 可以通过将合成视频与输入视频进行匹配,以自我监督的方式进行端到端的预训练。各种数据集的实验结果表明,NerfCap 在表面重建精度和新视图合成质量方面都优于先前的工作。

Aug21 - Aug27, 2022

  • 训练和调整生成神经辐射场以进行属性条件 3D 感知人脸生成 | [code]

    基于生成神经辐射场 (GNeRF) 的 3D 感知 GAN 已经实现了令人印象深刻的高质量图像生成,同时保持了强大的 3D 一致性。最显着的成就是在人脸生成领域。然而,这些模型中的大多数都专注于提高视图一致性而忽略了解耦方面,因此这些模型无法提供对生成的高质量语义/属性控制。为此,我们引入了一个使用特定属性标签作为输入的条件 GNeRF 模型,以提高 3D 感知生成模型的可控性和解开能力。我们利用预训练的 3D 感知模型作为基础,并集成了一个双分支属性编辑模块 (DAEM),该模块利用属性标签来提供对生成的控制。此外,我们提出了一种 TRIOT (TRAining as Init, and Optimizing for Tuning) 方法来优化潜在向量,以进一步提高属性编辑的精度。在广泛使用的 FFHQ 上进行的大量实验表明,我们的模型在保留非目标区域的同时,可以产生具有更好视图一致性的高质量编辑。该代码可在此 https 网址上找到。

  • Voxurf:基于体素的高效准确的神经表面重建 | [code]

    神经表面重建旨在基于多视图图像重建准确的 3D 表面。以前基于神经体绘制的方法大多训练完全隐式模型,并且它们需要对单个场景进行数小时的训练。最近的努力探索了显式体积表示,它通过在可学习的体素网格中记忆重要信息来大大加速优化过程。然而,这些基于体素的方法通常难以重建细粒度几何。通过实证研究,我们发现高质量的表面重建取决于两个关键因素:构建连贯形状的能力和颜色几何依赖性的精确建模。特别是后者是精细细节准确重建的关键。受这些发现的启发,我们开发了 Voxurf,这是一种基于体素的高效和准确的神经表面重建方法,它包括两个阶段:1)利用可学习的特征网格来构建色场并获得连贯的粗略形状,以及 2)使用捕获精确的颜色几何依赖性的双色网络优化详细的几何图形。我们进一步引入了分层几何特征,以实现跨体素的信息共享。我们的实验表明,Voxurf 同时实现了高效率和高质量。在 DTU 基准上,与最先进的方法相比,Voxurf 实现了更高的重建质量,训练速度提高了 20 倍。

Previous weeks

  • Plenoxels:没有神经网络的辐射场, CVPR2022(oral) | [code]

    我们介绍了 Plenoxels(全光体素),一种用于照片级真实视图合成的系统。 Plenoxels 将场景表示为具有球谐函数的稀疏 3D 网格。这种表示可以通过梯度方法和正则化从校准图像中优化,而无需任何神经组件。在标准的基准任务中,Plenoxels 的优化速度比神经辐射场快两个数量级,而视觉质量没有损失。

Aug21 - Aug27, 2022

  • 神经小说演员:学习人类演员的广义动画神经表示 | [code]

    我们提出了一种新方法,用于从一组稀疏的多人多视图图像中学习广义的可动画神经人类表示。学习到的表示可用于从一组稀疏的相机中合成任意人的新颖视图图像,并使用用户的姿势控制进一步对它们进行动画处理。虽然现有方法可以推广到新人或使用用户控制合成动画,但它们都不能同时实现这两者。我们将这一成就归功于为共享的多人人体模型使用 3D 代理,并进一步将不同姿势的空间扭曲到共享的规范姿势空间,在该空间中,我们学习了一个神经领域并预测了人和与姿势相关的变形,以及从输入图像中提取的特征的外观。为了应对身体形状、姿势和服装变形的巨大变化的复杂性,我们设计了具有解开几何和外观的神经人体模型。此外,我们利用 3D 代理的空间点和表面点的图像特征来预测与人和姿势相关的属性。实验表明,我们的方法在这两项任务上都显着优于现有技术。视频和代码可在此 https 网址上找到。

  • DreamBooth:为主题驱动生成微调文本到图像的扩散模型 | [code]

    大型文本到图像模型在人工智能的演进中实现了显着的飞跃,能够从给定的文本提示中对图像进行高质量和多样化的合成。然而,这些模型缺乏模仿给定参考集中对象的外观并在不同上下文中合成它们的新颖再现的能力。在这项工作中,我们提出了一种“个性化”文本到图像扩散模型的新方法(专门针对用户的需求)。给定主题的几张图像作为输入,我们微调预训练的文本到图像模型(Imagen,尽管我们的方法不限于特定模型),以便它学会将唯一标识符与该特定主题绑定.一旦对象被嵌入模型的输出域中,唯一标识符就可以用于合成在不同场景中情境化的对象的完全新颖的真实感图像。通过利用嵌入在模型中的语义先验和新的自生类特定先验保存损失,我们的技术能够在参考图像中没有出现的不同场景、姿势、视图和照明条件下合成主体。我们将我们的技术应用于几个以前无懈可击的任务,包括主题重新上下文化、文本引导视图合成、外观修改和艺术渲染(同时保留主题的关键特征)。项目页面:此 https 网址

  • E-NeRF:来自移动事件相机的神经辐射场 | [code]

    从理想图像估计神经辐射场 (NeRFs) 已在计算机视觉领域得到广泛研究。大多数方法假设最佳照明和缓慢的相机运动。这些假设在机器人应用中经常被违反,其中图像包含运动模糊并且场景可能没有合适的照明。这可能会导致下游任务(例如场景的导航、检查或可视化)出现重大问题。为了缓解这些问题,我们提出了 E-NeRF,这是第一种从快速移动的事件摄像机中以 NeRF 形式估计体积场景表示的方法。我们的方法可以在非常快速的运动和高动态范围条件下恢复 NeRF,在这种情况下,基于帧的方法会失败。我们展示了仅通过提供事件流作为输入来渲染高质量帧是可能的。此外,通过结合事件和帧,我们可以估计在严重运动模糊下比最先进的方法质量更高的 NeRF。我们还表明,在只有很少的输入视图可用的情况下,结合事件和帧可以克服 NeRF 估计的失败情况,而无需额外的正则化。

  • FurryGAN:高质量的前景感知图像合成, ECCV2022 | [code]

    前景感知图像合成旨在生成图像及其前景蒙版。一种常见的方法是将图像公式化为前景图像和背景图像的蒙版混合。这是一个具有挑战性的问题,因为它很容易达到一个简单的解决方案,即任一图像压倒另一个图像,即蒙版完全满或空,前景和背景没有有意义地分离。我们展示了 FurryGAN 的三个关键组件:1)将前景图像和合成图像都强加为逼真,2)将掩码设计为粗略和精细掩码的组合,以及 3)通过辅助掩码预测器引导生成器鉴别器。我们的方法使用非常详细的 alpha 蒙版生成逼真的图像,这些蒙版以完全无人监督的方式覆盖头发、毛皮和胡须。

  • SCONE:通过体积积分优化未知环境中的表面覆盖率 | [code]

    下一个最佳视图计算 (NBV) 是机器人技术中长期存在的问题,包括识别下一个信息量最大的传感器位置,以有效且准确地重建 3D 对象或场景。像大多数当前方法一样,我们考虑来自深度传感器的 NBV 预测。依赖于场景体积表示的基于学习的方法适用于路径规划,但不能很好地适应场景的大小,并且精度低于使用基于表面的表示的方法。然而,后者将相机限制在少数姿势。为了获得这两种表示的优点,我们表明我们可以通过蒙特卡罗积分在体积表示上最大化表面度量。我们的方法可扩展到大型场景并处理自由相机运动:它将由深度传感器(如激光雷达系统)收集的任意大点云以及相机姿势作为输入来预测 NBV。我们在由大型复杂 3D 场景组成的新数据集上展示了我们的方法。

Aug14 - Aug20, 2022

  • Vox-Surf:基于体素的隐式表面表示 | [code]

    虚拟内容创建和交互在 AR 和 VR 等现代 3D 应用中发挥着重要作用。从真实场景中恢复详细的 3D 模型可以显着扩展其应用范围,并且已经在计算机视觉和计算机图形学界进行了数十年的研究。我们提出了 Vox-Surf,一种基于体素的隐式表面表示。我们的 Vox-Surf 将空间划分为有限的有界体素。每个体素在其角顶点中存储几何和外观信息。由于从体素表示继承而来的稀疏性,Vox-Surf 几乎适用于任何场景,并且可以从多个视图图像中轻松训练。我们利用渐进式训练过程逐步提取重要体素进行进一步优化,从而只保留有效体素,这大大减少了采样点的数量并提高了渲染速度。精细体素也可以视为碰撞检测的边界体积。实验表明,与其他方法相比,Vox-Surf 表示可以以更少的内存和更快的渲染速度学习精细的表面细节和准确的颜色。我们还表明,Vox-Surf 在场景编辑和 AR 应用中可以更实用。

  • 通过多平面图像的 3D 对象运动估计动态场景的时间视图合成, ISMAR2022 | [code]

    在低计算设备上以图形方式渲染高帧率视频的挑战可以通过对未来帧的定期预测来解决,以增强虚拟现实应用程序中的用户体验。这是通过时间视图合成 (TVS) 的问题来研究的,其目标是在给定前一帧以及前一帧和下一帧的头部姿势的情况下预测视频的下一帧。在这项工作中,我们考虑了用户和对象都在移动的动态场景的 TVS。我们设计了一个框架,将运动解耦为用户和对象运动,以在预测下一帧的同时有效地使用可用的用户运动。我们通过隔离和估计过去帧中的 3D 对象运动然后外推来预测对象的运动。我们使用多平面图像 (MPI) 作为场景的 3D 表示,并将对象运动建模为 MPI 表示中对应点之间的 3D 位移。为了在估计运动时处理 MPI 中的稀疏性,我们结合了部分卷积和掩蔽相关层来估计对应点。然后将预测的对象运动与给定的用户或相机运动集成以生成下一帧。使用遮蔽填充模块,我们合成由于相机和物体运动而未覆盖的区域。我们为包含 800 个全高清分辨率视频的动态场景 TVS 开发了一个新的合成数据集。我们通过对我们的数据集和 MPI Sintel 数据集的实验表明,我们的模型优于文献中的所有竞争方法。

  • LoRD:用于高保真动态人体建模的局部 4D 隐式表示, ECCV2022 | [code]

    4D 隐式表示的最新进展集中在使用低维潜在向量全局控制形状和运动,这容易丢失表面细节和累积跟踪误差。尽管许多深度局部表示已显示出可用于 3D 形状建模的有希望的结果,但它们的 4D 对应物尚不存在。在本文中,我们提出了一种新颖的用于动态服装人体的局部 4D 隐式表示,名为 LoRD,以填补这一空白,它兼具 4D 人体建模和局部表示的优点,并能够通过详细的表面变形进行高保真重建,例如衣服褶皱。特别是,我们的关键见解是鼓励网络学习局部部分级表示的潜在代码,能够解释局部几何和时间变形。为了在测试时进行推断,我们首先在每个时间步估计体内骨骼运动以跟踪局部部位,然后根据不同类型的观察数据通过自动解码优化每个部位的潜在代码。大量实验表明,该方法具有很强的表示 4D 人体的能力,并且在实际应用中优于最先进的方法,包括从稀疏点进行 4D 重建、非刚性深度融合,无论是定性还是定量。

  • 从单目视频中对动画 3D 人体进行神经捕获, ECCV2022 | [code]

    我们提出了一种从单目视频输入构建可动画 3D 人体表示的新颖范例,这样它就可以以任何看不见的姿势和视图进行渲染。我们的方法基于动态神经辐射场 (NeRF),该动态神经辐射场 (NeRF) 由作为几何代理的基于网格的参数化 3D 人体模型装配。以前的方法通常依赖多视图视频或准确的 3D 几何信息作为附加输入;此外,大多数方法在推广到看不见的姿势时质量会下降。我们认为,泛化的关键是用于查询动态 NeRF 的良好输入嵌入:良好的输入嵌入应该定义全体积空间中的单射映射,由姿态变化下的表面网格变形引导。基于这一观察,我们建议嵌入输入查询及其与网格顶点上一组测地最近邻所跨越的局部表面区域的关系。通过包含位置和相对距离信息,我们的嵌入定义了距离保留的变形映射,并很好地推广到看不见的姿势。为了减少对额外输入的依赖,我们首先使用现成的工具初始化每帧 3D 网格,然后提出一个管道来联合优化 NeRF 并细化初始网格。大量实验表明,我们的方法可以在看不见的姿势和视图下合成合理的人类渲染结果。

  • 8 点算法作为 ViTs 相对姿势预测的归纳偏差, 3DV2022 | [code]

    我们提出了一个简单的基线,用于直接估计两个图像之间的相对姿势(旋转和平移,包括比例)。深度方法最近显示出强劲的进展,但通常需要复杂或多阶段的架构。我们展示了一些修改可以应用于视觉转换器 (ViT),以使其计算接近八点算法。这种归纳偏差使一种简单的方法在多种环境中具有竞争力,通常在有限的数据机制中显着提高现有技术水平,并具有强大的性能提升。

  • PDRF:渐进式去模糊辐射场,用于从模糊图像中快速、稳健地重建场景 | [code]

    我们提出了渐进式去模糊辐射场 (PDRF),这是一种从模糊图像中有效重建高质量辐射场的新方法。虽然当前最先进的 (SoTA) 场景重建方法从干净的源视图实现照片般逼真的渲染结果,但当源视图受到模糊影响时,它们的性能会受到影响,这在野外图像中很常见。以前的去模糊方法要么不考虑 3D 几何,要么计算量很大。为了解决这些问题,PDRF 是辐射场建模中的一种渐进式去模糊方案,它通过结合 3D 场景上下文准确地模拟模糊。 PDRF 进一步使用有效的重要性采样方案,从而实现快速的场景优化。具体来说,PDRF 提出了一种 Coarse Ray Renderer 来快速估计体素密度和特征;然后使用 Fine Voxel Renderer 来实现高质量的光线追踪。我们进行了广泛的实验,结果表明 PDRF 比以前的 SoTA 快 15 倍,同时在合成场景和真实场景上都取得了更好的性能。

  • 通过隐式视觉引导和超网络生成文本到图像 | [code]

    我们开发了一种文本到图像生成的方法,该方法包含额外的检索图像,由隐式视觉引导损失和生成目标的组合驱动。与大多数现有的仅以文本为输入的文本到图像生成方法不同,我们的方法将跨模态搜索结果动态地馈送到统一的训练阶段,从而提高了生成结果的质量、可控性和多样性。我们提出了一种新的超网络调制的视觉文本编码方案来预测编码层的权重更新,从而实现从视觉信息(例如布局、内容)到相应的潜在域的有效传输。实验结果表明,我们的模型以额外的检索视觉数据为指导,优于现有的基于 GAN 的模型。在 COCO 数据集上,与最先进的方法相比,我们实现了更好的 FID 为 9.13,生成器参数减少了 3.5 倍。

  • 从全向图像中捕捉休闲室内 HDR 辐射 | [code]

    我们提出了 PanoHDR-NeRF,这是一种新颖的管道,可以随意捕获大型室内场景的合理全 HDR 辐射场,而无需精心设置或复杂的捕获协议。首先,用户通过在场景周围自由挥动现成的相机来捕捉场景的低动态范围 (LDR) 全向视频。 然后,LDR2HDR 网络将捕获的 LDR 帧提升为 HDR,随后用于训练定制的 NeRF++ 模型。 由此产生的 PanoHDR-NeRF 管道可以从场景的任何位置估计完整的 HDR 全景图。 通过对各种真实场景的新测试数据集进行实验,在训练期间未看到的位置捕获地面实况 HDR 辐射,我们表明 PanoHDR-NeRF 可以预测来自任何场景点的合理辐射。我们还表明,由 PanoHDR-NeRF 生成的 HDR 图像可以合成正确的照明效果,从而能够使用正确照明的合成对象来增强室内场景。

  • UPST-NeRF:用于 3D 场景的神经辐射场的通用逼真风格转移 | [code]

    3D 场景逼真风格化旨在根据给定的风格图像从任意新颖的视图生成逼真的图像,同时确保从不同视点渲染时的一致性。现有的一些具有神经辐射场的风格化方法可以通过将风格图像的特征与多视图图像相结合来训练3D场景,从而有效地预测风格化场景。然而,这些方法会生成包含令人反感的伪影的新颖视图图像。此外,它们无法为 3D 场景实现通用的逼真风格化。因此,造型图像必须重新训练基于神经辐射场的 3D 场景表示网络。我们提出了一种新颖的 3D 场景逼真风格迁移框架来解决这些问题。它可以用 2D 风格的图像实现逼真的 3D 场景风格转换。我们首先预训练了一个 2D 真实感风格迁移网络,可以满足任何给定内容图像和风格图像之间的真实感风格迁移。然后,我们使用体素特征来优化 3D 场景并获得场景的几何表示。最后,我们共同优化了一个超网络,以实现任意风格图像的场景逼真风格迁移。在迁移阶段,我们使用预训练的 2D 真实感网络来约束 3D 场景中不同视图和不同风格图像的真实感风格。实验结果表明,我们的方法不仅实现了任意风格图像的 3D 逼真风格转换,而且在视觉质量和一致性方面优于现有方法。项目页面:此 https URL。

  • DM-NeRF:2D 图像的 3D 场景几何分解和操作 | [code]

    在本文中,我们从 2D 视图研究 3D 场景几何分解和操纵问题。通过利用最近的隐式神经表示技术,特别是吸引人的神经辐射场,我们引入了一个对象场组件,仅从 2D 监督中学习 3D 空间中所有单个对象的唯一代码。该组件的关键是一系列精心设计的损失函数,以使每个 3D 点,尤其是在非占用空间中,即使没有 3D 标签也能得到有效优化。此外,我们引入了一种逆查询算法,可以在学习的场景表示中自由操作任何指定的 3D 对象形状。值得注意的是,我们的操作算法可以明确地解决关键问题,例如对象碰撞和视觉遮挡。我们的方法称为 DM-NeRF,是最早在单个管道中同时重建、分解、操作和渲染复杂 3D 场景的方法之一。在三个数据集上的大量实验清楚地表明,我们的方法可以准确地从 2D 视图中分解所有 3D 对象,允许在 3D 空间中自由操作任何感兴趣的对象,例如平移、旋转、大小调整和变形。

  • HDR-Plenoxels:自校准高动态范围辐射场, ECCV2022 | [code]

    我们提出了高动态范围辐射 (HDR) 场 HDR-Plenoxels,它学习 3D HDR 辐射场、几何信息和 2D 低动态范围 (LDR) 图像中固有的不同相机设置的全光函数。我们基于体素的体素渲染管道仅使用从不同相机设置中以端到端方式拍摄的多视图 LDR 图像来重建 HDR 辐射场,并且具有快速的收敛速度。为了处理现实世界场景中的各种相机,我们引入了一个色调映射模块,该模块对相机内的数字成像管道 (ISP) 进行建模并解开辐射设置。我们的色调映射模块允许我们通过控制每个新视图的辐射设置来进行渲染。最后,我们构建了一个具有不同相机条件的多视图数据集,这符合我们的问题设置。我们的实验表明,HDR-Plenoxels 可以仅从带有各种相机的 LDR 图像中表达细节和高质量的 HDR 新颖视图。

Aug7 - Aug13, 2022

  • 渐进式多尺度光场网络, 3DV2022 | [code]

    与图像集表示相比,神经表示在表示辐射和光场的能力方面显示出了巨大的希望,同时非常紧凑。然而,当前的表示不太适合流式传输,因为解码只能在单个细节级别上完成,并且需要下载整个神经网络模型。此外,高分辨率光场网络可能会出现闪烁和混叠,因为在没有适当过滤的情况下对神经网络进行采样。为了解决这些问题,我们提出了一个渐进式多尺度光场网络,它对具有多层次细节的光场进行编码。使用较少的神经网络权重对较低级别的细节进行编码,从而实现渐进式流传输并减少渲染时间。我们的渐进式多尺度光场网络通过在较低细节级别编码较小的抗锯齿表示来解决锯齿问题。此外,每个像素级别的细节使我们的表示能够支持抖动过渡和中心点渲染。

  • OmniVoxel:一种快速精确的全向神经辐射场重建方法, GCCE 2022 | [code]

    本文提出了一种利用等矩形全向图像重建神经辐射场的方法。具有辐射场的隐式神经场景表示可以在有限的空间区域内连续重建场景的 3D 形状。然而,在商用 PC 硬件上训练完全隐式表示需要大量时间和计算资源(每个场景 15 ~ 20 小时)。因此,我们提出了一种显着加速这一过程的方法(每个场景 20 ∼ 40 分钟)。我们没有使用完全隐式的光线表示来重建辐射场,而是采用包含张量中的密度和颜色特征的特征体素。考虑到全向 equirectangular 输入和相机布局,我们使用球面体素化来表示,而不是三次表示。我们的体素化方法可以平衡内景和外景的重建质量。此外,我们对颜色特征采用轴对齐位置编码方法来提高整体图像质量。我们的方法在具有随机相机姿势的合成数据集上实现了令人满意的经验性能。此外,我们在包含复杂几何形状的真实场景中测试了我们的方法,并实现了最先进的性能。我们的代码和完整的数据集将与论文发表的同时发布。

  • HyperTime:时间序列的隐式神经表示 | [code]

    隐式神经表示 (INR) 最近已成为一种强大的工具,可提供准确且与分辨率无关的数据编码。它们作为通用逼近器的鲁棒性已在各种数据源中得到证明,并应用于图像、声音和 3D 场景表示。然而,很少有人关注利用这些架构来表示和分析时间序列数据。在本文中,我们使用 INR 分析时间序列的表示,比较不同的激活函数在重建精度和训练收敛速度方面。我们展示了如何利用这些网络对时间序列进行插补,以及在单变量和多变量数据上的应用。最后,我们提出了一种利用 INR 来学习整个时间序列数据集的压缩潜在表示的超网络架构。我们引入了基于 FFT 的损失来指导训练,以便在时间序列中保留所有频率。我们展示了该网络可用于将时间序列编码为 INR,并且可以对它们的嵌入进行插值以从现有的时间序列中生成新的时间序列。我们通过将其用于数据增强来评估我们的生成方法,并表明它与当前最先进的时间序列增强方法具有竞争力。

  • RelPose:预测野外单个物体的概率相对旋转, ECCV2022 | [code]

    我们描述了一种数据驱动的方法,用于在给定任意对象的多个图像的情况下推断相机视点。该任务是经典几何流水线(如 SfM 和 SLAM)的核心组成部分,也是当代神经方法(例如 NeRF)对对象重建和视图合成的重要预处理要求。与现有的在稀疏视图中表现不佳的对应驱动方法相比,我们提出了一种基于自上而下预测的方法来估计相机视点。我们的关键技术见解是使用基于能量的公式来表示相对相机旋转的分布,从而使我们能够明确表示由对象对称性或视图产生的多个相机模式。利用这些相对预测,我们从多张图像中共同估计一组一致的相机旋转。我们表明,在给定可见和不可见类别的稀疏图像的情况下,我们的方法优于最先进的 SfM 和 SLAM 方法。此外,我们的概率方法明显优于直接回归相对姿势,这表明建模多模态对于连贯的关节重建很重要。我们证明我们的系统可以成为从多视图数据集进行野外重建的垫脚石。包含代码和视频的项目页面可以在这个 https URL 找到。

  • NIDN:纳米结构的神经逆向设计 | [code]

    近十年来,计算工具已成为材料设计的核心,以降低成本实现快速开发周期。机器学习工具在光子学领域尤其兴起。然而,从优化的角度来看,设计所需的麦克斯韦方程的反演特别具有挑战性,需要复杂的软件。我们提出了一种创新的开源软件工具,称为纳米结构的神经逆向设计 (NIDN),它允许使用基于物理的深度学习方法设计复杂的堆叠材料纳米结构。我们执行基于梯度的神经网络训练,而不是无导数或数据驱动的优化或学习方法,在这种训练中,我们根据其光谱特性直接优化材料及其结构。 NIDN 支持两种不同的求解器,严格的耦合波分析和有限差分时域方法。 NIDN 的实用性和有效性在几个合成示例以及 1550 nm 滤光片和抗反射涂层的设计中得到了证明。结果与实验基线、其他模拟工具和所需的光谱特性相匹配。鉴于其在网络架构和 Maxwell 求解器方面的完全模块化以及开源、许可的可用性,NIDN 将能够支持广泛应用中的计算材料设计过程。

  • HRF-Net:来自稀疏输入的整体辐射场 | [code]

    我们提出了 HRF-Net,这是一种基于整体辐射场的新型视图合成方法,它使用一组稀疏输入来渲染新颖的视图。最近的泛化视图合成方法也利用了辐射场,但渲染速度不是实时的。现有的方法可以有效地训练和渲染新颖的视图,但它们不能推广到看不见的场景。我们的方法解决了用于泛化视图合成的实时渲染问题,包括两个主要阶段:整体辐射场预测器和基于卷积的神经渲染器。这种架构不仅可以基于隐式神经场推断出一致的场景几何,还可以使用单个 GPU 有效地渲染新视图。我们首先在 DTU 数据集的多个 3D 场景上训练 HRF-Net,并且该网络可以仅使用光度损失对看不见的真实和合成数据产生似是而非的新颖视图。此外,我们的方法可以利用单个场景的一组更密集的参考图像来生成准确的新颖视图,而无需依赖额外的显式表示,并且仍然保持预训练模型的高速渲染。实验结果表明,HRF-Net 在各种合成和真实数据集上优于最先进的可泛化神经渲染方法。

  • 使用隐式神经表示的蒙特卡罗去噪 | [code]

    Monte Carlo 路径追踪是计算机图形学中流行的 3D 渲染技术,但它通常需要在图像中的噪声量和计算时间之间进行代价高昂的权衡。因此,尝试“平滑”噪声图像是有用的,通常通过在样本之间构建新数据或对图像应用过滤器。在这项工作中,我们研究了训练神经网络以将固定视点场景的亮度隐式表示为连续函数的可行性。我们使用多层感知器网络实现神经网络,并在由离线 Monte Carlo 渲染器生成的稀疏采样图像上对其进行训练。该训练数据使用图像平面上每个样本的 (x, y) 坐标作为输入,并将样本的 RGB 颜色作为输出。此外,我们为网络提供第一条光线交点的表面法线、深度和反照率,作为像素坐标旁边的额外输入。这些额外的输入维度通过帮助网络考虑深度、法线和漫反射颜色的变化来提高隐式表示的质量。一旦网络在稀疏采样的场景上得到训练,我们就可以对每个像素的网络进行多次密集采样,以创建最终的去噪图像。我们发现该网络可以在具有柔和照明和光泽反射的场景中快速学习和去噪图像,并且只需少量训练即可轻松处理深度、正常和漫反射颜色的不连续性。

  • 通过可微分渲染进行表面捕获的快速梯度下降, 3DV2022 | [code]

    差分渲染最近已成为一种强大的工具,用于从多个视图进行基于图像的渲染或几何重建,具有非常高的质量。到目前为止,此类方法已在通用对象数据库上进行了基准测试,并有望应用于一些真实数据,但尚未应用于可能受益的特定应用程序。在本文中,我们研究了如何为原始多相机性能捕获制作差分渲染系统。我们以实际可用性和可重复性的方式解决了几个关键问题,例如处理速度、模型的可解释性和一般输出模型质量。这导致我们对差分渲染框架做出了一些贡献。特别是,我们展示了差分渲染和经典优化的统一视图是可能的,从而导致可以分析计算完整的非随机梯度步骤并将完整的每帧数据存储在视频内存中的公式和实现,从而产生简单有效的实现.我们还使用稀疏存储和从粗到细的方案来实现极高的分辨率,同时包含内存和计算时间。我们通过实验表明,在质量上与最先进的多视图人体表面捕获方法相媲美的结果可以在很短的时间内实现,通常每帧大约一分钟。

  • PlaneFormers:从稀疏视图平面到 3D 重建, ECCV2022 | [code]

    我们提出了一种从具有有限重叠的图像中对场景进行平面表面重建的方法。这种重建任务具有挑战性,因为它需要联合推理单图像 3D 重建、图像之间的对应关系以及图像之间的相对相机位姿。过去的工作提出了基于优化的方法。我们介绍了一种更简单的方法,PlaneFormer,它使用一个应用于 3D 感知平面令牌的转换器来执行 3D 推理。我们的实验表明,我们的方法比以前的工作要有效得多,并且几个特定于 3D 的设计决策对其成功至关重要。

  • PS-NeRV:视频的补丁风格化神经表示 | [code]

    我们研究如何使用隐式神经表示 (INR) 来表示视频。经典的 INR 方法通常利用 MLP 将输入坐标映射到输出像素。虽然最近的一些作品试图用 CNN 直接重建整个图像。然而,我们认为上述像素级和图像级策略都不利于视频数据。相反,我们提出了一种补丁解决方案 PS-NeRV,它将视频表示为补丁和相应补丁坐标的函数。它自然继承了image-wise方法的优点,并以快速的解码速度实现了出色的重建性能。整个方法包括传统的模块,如位置嵌入、MLPs 和 CNNs,同时还引入了 AdaIN 来增强中间特征。这些简单而重要的变化可以帮助网络轻松适应高频细节。大量实验证明了它在视频压缩和视频修复等视频相关任务中的有效性。

Jul31 - Aug6, 2022

  • NFOMP:具有非完整约束的差动驱动机器人最优运动规划器的神经场, IEEE Robotics and Automation Letters | [code]

    摘要:最优运动规划是移动机器人中最关键的问题之一。一方面,经典的基于采样的方法为这个问题提出了渐近最优的解决方案。然而,这些规划器无法在合理的计算时间内实现平滑和短的轨迹。另一方面,基于优化的方法能够在各种场景中生成平滑而平坦的轨迹,包括密集的人群。然而,现代基于优化的方法使用预先计算的有符号距离函数进行碰撞损失估计,它限制了这些方法在一般配置空间中的应用,包括具有非完整约束的差分驱动非圆形机器人。此外,基于优化的方法缺乏准确处理 U 形或薄障碍物的能力。我们建议从两个方面改进优化方法。首先,我们开发了一个障碍物神经场模型来估计碰撞损失;将此模型与轨迹优化一起训练可以持续改善碰撞损失,同时实现更可行和更平滑的轨迹。其次,我们通过将拉格朗日乘数添加到轨迹损失函数中来强制轨迹考虑非完整约束。我们应用我们的方法解决了具有非完整约束的差动驱动机器人的最优运动规划问题,对我们的解决方案进行了基准测试,并证明了新的规划器生成了非常适合机器人跟随的平滑、短而平坦的轨迹,并且优于最先进的方法在归一化曲率上提高了 25%,在 MovingAI 环境中的尖点数量上提高了 75%。

  • NeSF: 用于 3D 场景的可概括语义分割的神经语义场 | [code]

    我们提出了 NeSF,一种从预训练的密度场和稀疏的 2D 语义监督产生 3D 语义场的方法。我们的方法通过利用将 3D 信息存储在神经域中的神经表示来避开传统的场景表示。尽管仅由 2D 信号监督,我们的方法能够从新颖的相机姿势生成 3D 一致的语义图,并且可以在任意 3D 点进行查询。值得注意的是,NeSF 与任何产生密度场的方法兼容,并且随着预训练密度场质量的提高,其准确性也会提高。我们的实证分析证明了在令人信服的合成场景上与竞争性 2D 和 3D 语义分割基线相当的质量,同时还提供了现有方法无法提供的功能。

  • PRIF: Primary Ray-based Implicit Function | [code]

    我们引入了一种新的隐式形状表示,称为基于初级光线的隐式函数 (PRIF)。与大多数基于符号距离函数 (SDF) 处理空间位置的现有方法相比,我们的表示在定向射线上运行。具体来说,PRIF 被制定为直接生成给定输入射线的表面命中点,而无需昂贵的球体跟踪操作,从而实现高效的形状提取和可微渲染。我们证明了经过训练以编码 PRIF 的神经网络在各种任务中取得了成功,包括单一形状表示、类别形状生成、稀疏或嘈杂观察的形状补全、相机姿态估计的逆渲染以及颜色的神经渲染。

  • Transformers as Meta-Learners for Implicit Neural Representations, ECCV2022 | [code]

    近年来,隐式神经表示 (INR) 已经出现并显示出其优于离散表示的优势。然而,将 INR 拟合到给定的观测值通常需要从头开始使用梯度下降进行优化,这是低效的,并且不能很好地泛化稀疏的观测值。为了解决这个问题,大多数先前的工作都训练了一个超网络,该超网络生成单个向量来调制 INR 权重,其中单个向量成为限制输出 INR 重建精度的信息瓶颈。最近的工作表明,通过基于梯度的元学习,可以在没有单向量瓶颈的情况下精确推断 INR 中的整个权重集。受基于梯度的元学习的广义公式的启发,我们提出了一个公式,该公式使用 Transformer 作为 INR 的超网络,它可以使用专门作为集合到集合映射的 Transformer 直接构建整个 INR 权重集。我们展示了我们的方法在不同任务和领域中构建 INR 的有效性,包括 2D 图像回归和 3D 对象的视图合成。我们的工作在 Transformer 超网络和基于梯度的元学习算法之间建立了联系,我们为理解生成的 INR 提供了进一步的分析。

  • 全息显示3D相位全息图的端到端学习 | [code]

    计算机生成的全息术 (CGH) 提供相干波前的体积控制,是体积 3D 显示器、光刻、神经光刺激和光/声捕获等应用的基础。最近,基于深度学习的方法作为 CGH 合成的有前途的计算范式出现,克服了传统基于模拟/优化的方法中的质量-运行时权衡。然而,预测全息图的质量本质上受数据集质量的限制。在这里,我们介绍了一个新的全息图数据集 MIT-CGH-4K-V2,它使用分层深度图像作为数据高效的体积 3D 输入和用于直接合成高质量 3D 相位的两阶段监督+无监督训练协议-只有全息图。所提出的系统还可以校正视觉像差,从而允许为最终用户定制。我们通过实验展示了逼真的 3D 全息投影并讨论了相关的空间光调制器校准程序。我们的方法在消费级 GPU 上实时运行,在 iPhone 13 Pro 上以 5 FPS 运行,有望显着提高上述应用程序的性能。

  • VolTeMorph:体积表示的实时、可控和可泛化动画 | [code]

    最近,用于场景重建和新颖视图合成的体积表示越来越受欢迎,这使人们重新关注在高可见度下对体积内容进行动画处理质量和实时性。虽然基于学习函数的隐式变形方法可以产生令人印象深刻的结果,但它们对于艺术家和内容创作者来说是“黑匣子”,它们需要大量的训练数据才能进行有意义的概括,而且它们不会在训练数据之外产生现实的外推。在这项工作中,我们通过引入一种实时、易于使用现成软件进行编辑并且可以令人信服地推断的体积变形方法来解决这些问题。为了展示我们方法的多功能性,我们将其应用于两个场景:基于物理的对象变形和远程呈现,其中化身使用混合形状进行控制。我们还进行了彻底的实验,表明我们的方法优于结合隐式变形的体积方法和基于网格变形的方法。

  • 基于神经辐射场和运动图的可控自由视点视频重建, IEEE Transactions on Visualization and Computer Graphics | [code]

    在本文中,我们提出了一种基于运动图和神经辐射场(NeRF)的可控高质量自由视点视频生成方法。与现有的姿势驱动 NeRF 或时间/结构条件的 NeRF 工作不同,我们建议首先构建捕获序列的有向运动图。这种序列-运动-参数化策略不仅能够灵活地控制自由视点视频渲染的姿态,而且避免了相似姿态的冗余计算,从而提高了整体重建效率。此外,为了支持身体形状控制而不损失逼真的自由视点渲染性能,我们通过结合显式表面变形和隐式神经场景表示来改进 vanilla NeRF。具体来说,我们为运动图上的每个有效帧训练一个局部表面引导的 NeRF,并且体积渲染仅在真实表面周围的局部空间中执行,从而实现了合理的形状控制能力。据我们所知,我们的方法是第一个同时支持逼真的自由视点视频重建和基于运动图的用户引导运动遍历的方法。结果和比较进一步证明了所提出方法的有效性。

  • 基于神经描述符字段的鲁棒变化检测, IROS2022 | [code]

    推理环境变化的能力对于长时间运行的机器人至关重要。代理应在操作期间捕获更改,以便可以遵循操作以确保工作会话的顺利进行。然而,不同的视角和累积的定位误差使得机器人很容易由于低观察重叠和漂移的对象关联而错误地检测到周围世界的变化。在本文中,基于最近提出的类别级神经描述符字段 (NDF),我们开发了一种对象级在线变化检测方法,该方法对部分重叠的观察和嘈杂的定位结果具有鲁棒性。利用 NDF 的形状补全能力和 SE(3) 等效性,我们表示具有紧凑形状代码的对象,该代码编码来自部分观察的完整对象形状。然后基于从 NDF 恢复的对象中心将对象组织在空间树结构中,以便快速查询对象邻域。通过形状代码相似性关联对象并比较局部对象-邻居空间布局,我们提出的方法证明了对低观测重叠和定位噪声的鲁棒性。我们对合成序列和真实世界序列进行了实验,与多种基线方法相比,实现了改进的变化检测结果。

Jul24 - Jul30, 2022

  • DoF-NeRF:景深与神经辐射场相遇, ACMMM2022 | [code]

    神经辐射场 (NeRF) 及其变体在表示 3D 场景和合成逼真的新颖视图方面取得了巨大成功。但是,它们通常基于针孔相机模型并假设全焦点输入。这限制了它们的适用性,因为从现实世界捕获的图像通常具有有限的景深 (DoF)。为了缓解这个问题,我们引入了 DoF-NeRF,一种新颖的神经渲染方法,可以处理浅自由度输入并可以模拟自由度效果。特别是,它根据几何光学原理扩展了 NeRF 以模拟镜头的孔径。这样的物理保证允许 DoF-NeRF 操作具有不同焦点配置的视图。得益于显式光圈建模,DoF-NeRF 还可以通过调整虚拟光圈和焦点参数来直接操纵 DoF 效果。它是即插即用的,可以插入到基于 NeRF 的框架中。在合成数据集和真实世界数据集上的实验表明,DoF-NeRF 不仅在全焦点设置中的性能与 NeRF 相当,而且还可以合成以浅自由度输入为条件的全焦点新视图。还演示了 DoF-NeRF 在 DoF 渲染中的一个有趣应用。

  • ZEPI-Net:通过内部跨尺度对极平面图像零样本学习的光场超分辨率, Neural Processing Letters (2022) | [code]

    光场 (LF) 成像的许多应用都受到空间角分辨率问题的限制,因此需要高效的超分辨率技术。最近,基于学习的解决方案比传统的超分辨率(SR)技术取得了显着更好的性能。不幸的是,学习或训练过程在很大程度上依赖于训练数据集,这对于大多数 LF 成像应用程序来说可能是有限的。在本文中,我们提出了一种基于零样本学习的新型 LF 空间角 SR 算法。我们建议在核平面图像 (EPI) 空间中学习跨尺度可重用特征,并避免显式建模场景先验或从大量 LF 中隐式学习。最重要的是,在不使用任何外部 LF 的情况下,所提出的算法可以同时在空间域和角域中超分辨 LF。此外,所提出的解决方案没有深度或视差估计,这通常由现有的 LF 空间和角度 SR 采用。通过使用一个简单的 8 层全卷积网络,我们表明所提出的算法可以产生与最先进的空间 SR 相当的结果。我们的算法在多组公共 LF 数据集上的角度 SR 方面优于现有方法。实验结果表明,跨尺度特征可以很好地学习并在 EPI 空间中用于 LF SR。

  • ObjectFusion:具有神经对象先验的准确对象级 SLAM, Graphical Models, Volume 123, September 2022 | [code]

    以前的对象级同步定位和映射 (SLAM) 方法仍然无法以有效的方式创建高质量的面向对象的 3D 地图。主要挑战来自如何有效地表示对象形状以及如何将这种对象表示有效地应用于准确的在线相机跟踪。在本文中,我们提供 ObjectFusion 作为静态场景中的一种新颖的对象级 SLAM,它通过利用神经对象先验,有效地创建具有高质量对象重建的面向对象的 3D 地图。我们提出了一种仅具有单个编码器-解码器网络的神经对象表示,以有效地表达各种类别的对象形状,这有利于对象实例的高质量重建。更重要的是,我们建议将这种神经对象表示转换为精确测量,以共同优化对象形状、对象姿态和相机姿态,以实现最终准确的 3D 对象重建。通过对合成和真实世界 RGB-D 数据集的广泛评估,我们表明我们的 ObjectFusion 优于以前的方法,具有更好的对象重建质量,使用更少的内存占用,并且以更有效的方式,尤其是在对象级别。

  • MobileNeRF:利用多边形光栅化管道在移动架构上进行高效的神经场渲染 | [code]

    神经辐射场 (NeRFs) 展示了从新颖视图合成 3D 场景图像的惊人能力。但是,它们依赖于基于光线行进的专用体积渲染算法,这些算法与广泛部署的 g 的功能不匹配图形硬件。本文介绍了一种基于纹理多边形的新 NeRF 表示,它可以使用标准渲染管道有效地合成新图像。 NeRF 表示为一组多边形,其纹理表示二进制不透明度和特征向量。使用 z 缓冲区对多边形进行传统渲染会生成每个像素都有特征的图像,这些图像由在片段着色器中运行的小型、依赖于视图的 MLP 进行解释,以产生最终的像素颜色。这种方法使 NeRF 能够使用传统的多边形光栅化管道进行渲染,该管道提供大规模的像素级并行性,在包括手机在内的各种计算平台上实现交互式帧速率。

  • 神经密度-距离场, ECCV2022 | [code]

    神经领域在 3D 视觉任务中的成功现在是无可争辩的。遵循这一趋势,已经提出了几种针对视觉定位的方法(例如,SLAM)来使用神经场估计距离或密度场。然而,仅通过基于密度场的方法(例如神经辐射场 (NeRF))很难实现高定位性能,因为它们在大多数空白区域中不提供密度梯度。另一方面,基于距离场的方法,例如神经隐式表面 (NeuS),在对象的表面形状方面存在局限性。本文提出了神经密度-距离场 (NeDDF),这是一种新的 3D 表示,它相互约束距离和密度场。我们将距离场公式扩展到没有明确边界表面的形状,例如毛皮或烟雾,这使得从距离场到密度场的显式转换成为可能。通过显式转换实现的一致距离和密度场既能保证初始值的鲁棒性,又能实现高质量的配准。此外,场之间的一致性允许从稀疏点云快速收敛。实验表明,NeDDF 可以实现高定位性能,同时在新颖的视图合成上提供与 NeRF 相当的结果。该代码可在此 https URL 获得。

  • 通过 NeRF Attention 进行端到端视图合成 | [code]

    在本文中,我们提出了一个用于视图合成的简单 seq2seq 公式,其中我们将一组光线点作为输入和输出与光线相对应的颜色。在这个 seq2seq 公式上直接应用标准转换器有两个限制。首先,标准注意力不能成功地适应体积渲染过程,因此合成视图中缺少高频分量。其次,将全局注意力应用于所有光线和像素是非常低效的。受神经辐射场 (NeRF) 的启发,我们提出了 NeRF 注意力 (NeRFA) 来解决上述问题。一方面,NeRFA 将体积渲染方程视为软特征调制过程。通过这种方式,特征调制增强了具有类似 NeRF 电感偏置的变压器。另一方面,NeRFA 执行多阶段注意力以减少计算开销。此外,NeRFA 模型采用光线和像素转换器来学习光线和像素之间的相互作用。 NeRFA 在四个数据集上展示了优于 NeRF 和 NerFormer 的性能:DeepVoxels、Blender、LLFF 和 CO3D。此外,NeRFA 在两种设置下建立了新的 state-of-the-art:单场景视图合成和以类别为中心的新颖视图合成。该代码将公开发布。

  • 脱离网格:用于 3D 血管建模的连续隐式神经表示, MICCAI STACOM 2022 | [code]

    个性化 3D 血管模型对于心血管疾病患者的诊断、预后和治疗计划非常有价值。传统上,此类模型是用网格和体素掩码等显式表示或径向基函数或原子(管状)形状等隐式表示构建的。在这里,我们建议在可微的隐式神经表示 (INR) 中通过其有符号距离函数 (SDF) 的零水平集来表示表面。这使我们能够用隐式、连续、轻量级且易于与深度学习算法集成的表示来对复杂的血管结构进行建模。我们在这里通过三个实际示例展示了这种方法的潜力。首先,我们从 CT 图像中获得了腹主动脉瘤 (AAA) 的准确且防水的表面,并从表面上的 200 个点显示出稳健的拟合。其次,我们同时将嵌套的血管壁安装在单个 INR 中,没有交叉点。第三,我们展示了如何将单个动脉的 3D 模型平滑地融合到单个防水表面中。我们的结果表明,INR 是一种灵活的表示形式,具有最小交互注释的潜力复杂血管结构的研究和操作。

  • 神经链:从多视图图像中学习头发的几何形状和外观, ECCV2022 | [code]

    我们提出了 Neural Strands,这是一种新颖的学习框架,用于从多视图图像输入中对精确的头发几何形状和外观进行建模。学习的头发模型可以从具有高保真视图相关效果的任何视点实时渲染。与体积模型不同,我们的模型实现了直观的形状和样式控制。为了实现这些特性,我们提出了一种基于神经头皮纹理的新型头发表示,该神经头皮纹理对每个纹素位置的单个股线的几何形状和外观进行编码。此外,我们引入了一种基于学习发束光栅化的新型神经渲染框架。我们的神经渲染是精确的和抗锯齿的,使渲染视图一致且逼真。将外观与多视图几何先验相结合,我们首次实现了从多视图设置中联合学习外观和显式头发几何形状。我们展示了我们的方法在各种发型的保真度和效率方面的有效性。

  • 具有全局照明的可重新照明的新视图合成的神经辐射转移场 | [code]

    给定场景的一组图像,从新颖的视图和光照条件重新渲染该场景是计算机视觉和图形学中一个重要且具有挑战性的问题。一方面,计算机视觉中的大多数现有作品通常对图像形成过程施加许多假设,例如直接照明和预定义的材料,使场景参数估计易于处理。另一方面,成熟的计算机图形学工具允许在给定所有场景参数的情况下对复杂的照片般逼真的光传输进行建模。结合这些方法,我们提出了一种通过学习神经预计算辐射传递函数来在新视图下重新点亮场景的方法,该函数使用新的环境图隐式处理全局光照效果。我们的方法可以在单一未知照明条件下对一组场景的真实图像进行单独监督。为了在训练期间消除任务的歧义,我们在训练过程中紧密集成了一个可微的路径跟踪器,并提出了合成 OLAT 和真实图像损失的组合。结果表明,与当前技术水平相比,场景参数的恢复解缠结得到了显着改善,因此,我们的重新渲染结果也更加真实和准确。

  • ShAPO:多对象形状、外观和姿势优化的隐式表示, ECCV2022 | [code]

    我们的方法从单个 RGB-D 观察中研究以对象为中心的 3D 理解的复杂任务。由于这是一个不适定问题,现有方法在具有遮挡的复杂多对象场景中的 3D 形状和 6D 姿势和尺寸估计性能低下。我们提出了 ShaAPO,一种用于联合多对象检测、3D 纹理重建、6D 对象姿态和大小估计的方法。 ShAPO 的关键是一个单次管道,用于回归形状、外观和姿势潜在代码以及每个对象实例的掩码,然后以稀疏到密集的方式进一步细化。首先学习了一种新的解开的先验形状和外观数据库,以将对象嵌入到它们各自的形状和外观空间中。我们还提出了一种新颖的、基于八叉树的可微优化步骤,使我们能够以综合分析的方式在学习的潜在空间下同时进一步改进对象形状、姿势和外观。我们新颖的联合隐式纹理对象表示使我们能够准确地识别和重建新的看不见的对象,而无需访问它们的 3D 网格。通过广泛的实验,我们证明了我们的方法在模拟室内场景上进行训练,能够以最少的微调准确地回归现实世界中新物体的形状、外观和姿势。我们的方法显着优于 NOCS 数据集上的所有基线,6D 姿态估计的 mAP 绝对提高了 8%。

  • GAUDI:沉浸式 3D 场景生成的神经架构师 | [code]

    我们介绍了 GAUDI,这是一种生成模型,能够捕捉复杂而逼真的 3D 场景的分布,可以从移动的相机中沉浸式地渲染。我们用一种可扩展但功能强大的方法来解决这个具有挑战性的问题,我们首先优化一个潜在的表示,以解开辐射场和相机姿势。然后使用这种潜在表示来学习生成模型,该模型可以无条件和有条件地生成 3D 场景.我们的模型通过消除相机姿态分布可以跨样本共享的假设来概括以前专注于单个对象的工作。我们展示了 GAUDI 在跨多个数据集的无条件生成设置中获得了最先进的性能,并允许在给定条件变量(如稀疏图像观察或描述场景的文本)的情况下有条件地生成 3D 场景。

  • AlignSDF:用于手对象重建的姿势对齐有符号距离场, ECCV2022 | [code]

    最近的工作在从单目彩色图像联合重建手和操纵对象方面取得了令人瞩目的进展。现有方法侧重于参数网格或符号距离场 (SDF) 方面的两种替代表示。一方面,参数模型可以从先验知识中受益,但代价是有限的形状变形和网格分辨率。因此,网格模型可能无法精确重建细节,例如手和物体的接触面。另一方面,基于 SDF 的方法可以表示任意细节,但缺乏明确的先验。在这项工作中,我们的目标是使用参数表示提供的先验改进 SDF 模型。特别是,我们提出了一个联合学习框架,可以解开姿势和形状。我们从参数模型中获取手和物体的姿势,并使用它们在 3D 空间中对齐 SDF。我们表明,这种对齐的 SDF 更好地专注于重建形状细节并提高手和物体的重建精度。我们评估了我们的方法,并在具有挑战性的 ObMan 和 DexYCB 基准上展示了对现有技术的显着改进。

  • 拉普拉斯系统的神经格林函数, Computer & Graphics | [code]

    求解源自拉普拉斯算子的线性方程组是广泛应用的核心。由于线性系统的稀疏性,当解具有大量自由度时,通常采用迭代求解器,例如共轭梯度和多重网格。这些迭代求解器可以看作是拉普拉斯算子格林函数的稀疏近似。在本文中,我们提出了一种机器学习方法,该方法从边界条件中回归格林函数。这是通过格林函数实现的,该函数可以以多尺度方式有效地表示,从而大大降低了与密集矩阵表示相关的成本。此外,由于格林函数完全依赖于边界条件,因此训练所提出的神经网络不需要对线性系统的右侧进行采样。结果表明,我们的方法优于最先进的共轭梯度和多重网格方法。

  • 用笼子变形辐射场, ECCV2022 | [code]

    辐射场的最新进展可以实现静态或动态 3D 场景的逼真渲染,但仍不支持用于场景操作或动画的显式变形。在本文中,我们提出了一种新的辐射场变形方法:自由形式的辐射场变形。我们使用一个三角形网格来包围称为笼子的前景对象作为界面,通过操纵笼子顶点,我们的方法可以实现辐射场的自由变形。我们方法的核心是网格变形中常用的基于笼的变形。我们提出了一种将其扩展到辐射场的新公式,该公式将采样点的位置和视图方向从变形空间映射到规范空间,从而实现变形场景的渲染。合成数据集和真实世界数据集的变形结果证明了我们方法的有效性。

  • NeuMesh:学习基于解缠结神经网格的隐式场,用于几何和纹理编辑, ECCV2022(oral) | [code]

    最近,神经隐式渲染技术得到了迅速发展,并在新颖的视图合成和 3D 场景重建中显示出巨大的优势。然而,现有的用于编辑目的的神经渲染方法提供的功能有限,例如,刚性变换,或者不适用于日常生活中一般对象的细粒度编辑。在本文中,我们提出了一种新颖的基于网格的表示,通过在网格顶点上使用解开几何和纹理代码对神经隐场进行编码,这促进了一组编辑功能,包括网格引导的几何编辑、带有纹理交换的指定纹理编辑、填充和绘画操作。为此,我们开发了几种技术包括可学习的符号指标以放大基于网格的表示的空间可区分性,蒸馏和微调机制以实现稳定收敛,以及空间感知优化策略以实现精确的纹理编辑。对真实数据和合成数据的大量实验和编辑示例证明了我们的方法在表示质量和编辑能力方面的优越性。代码可在项目网页上找到:此 https URL。

  • 关于物理概念的可学习性:神经网络能理解什么是真 | [code]

    鉴于深度神经网络生成逼真的合成数据的卓越能力,我们重新审视了经典的信号到符号障碍。 DeepFakes 和欺骗突出了物理现实与其抽象表示之间联系的脆弱性,无论是由数字计算机还是生物代理学习。从一个广泛适用的抽象概念定义开始,我们表明标准的前馈架构只能捕获微不足道的概念,无论权重的数量和训练数据的数量如何,尽管它们是非常有效的分类器。另一方面,包含递归的架构可以代表更大的概念类别,但可能仍然无法从有限的数据集中学习它们。我们定性地描述了可以被用随机梯度下降变体训练的现代架构“理解”的概念类别,使用(自由能)拉格朗日来测量信息复杂性。然而,即使一个概念已经被理解,网络也无法将其理解传达给外部代理,除非通过持续的交互和验证。然后,我们将物理对象表征为抽象概念,并使用前面的分析来表明物理对象可以由有限架构编码。然而,为了理解物理概念,传感器必须提供持续令人兴奋的观察,而控制数据采集过程的能力是必不可少的(主动感知)。控制的重要性取决于形式,比听觉或化学感知更有益于视觉。最后,我们得出结论,可以在有限的时间内用有限的资源将物理实体绑定到数字身份,原则上解决了信号到符号的障碍问题,但我们强调了持续验证的必要性。

Previous weeks

  • NeRF:将场景表示为用于视图合成的神经辐射场, ECCV2020 | [code]

    我们提出了一种方法,该方法通过使用稀疏输入视图集优化底层连续体积场景函数,实现了合成复杂场景的新视图的最新结果。我们的算法使用全连接(非卷积)深度网络表示场景,其输入是单个连续 5D 坐标(空间位置(x,y,z)和观察方向(θ,φ)),其输出是该空间位置的体积密度和与视图相关的发射辐射。我们通过沿相机光线查询 5D 坐标来合成视图,并使用经典的体渲染技术将输出颜色和密度投影到图像中。因为体积渲染是自然可微的,所以优化我们的表示所需的唯一输入是一组具有已知相机姿势的图像。我们描述了如何有效地优化神经辐射场以渲染具有复杂几何形状和外观的场景的逼真的新颖视图,并展示了优于先前在神经渲染和视图合成方面的工作的结果。查看合成结果最好以视频形式观看,因此我们敦促读者观看我们的补充视频以进行令人信服的比较。

  • 神经稀疏体素场, NeurIPS2020 | [code]

    我们介绍了神经稀疏体素场 (NSVF),这是一种用于快速和高质量自由视点渲染的新神经场景表示。 NSVF 定义了一组以稀疏体素八叉树组织的体素有界隐式字段,以对每个单元中的局部属性进行建模。 我们仅从一组姿势的 RGB 图像中通过可区分的光线行进操作逐步学习底层体素结构。 使用稀疏体素八叉树结构,可以通过跳过不包含相关场景内容的体素来加速渲染新颖的视图。 我们的方法在推理时比最先进的方法(即 NeRF (Mildenhall et al., 2020))快 10 倍以上,同时获得更高质量的结果。 此外,通过利用显式稀疏体素表示,我们的方法可以很容易地应用于场景编辑和场景合成。 我们还展示了几个具有挑战性的任务,包括多场景学习、移动人体的自由视点渲染和大规模场景渲染。

  • AutoInt:快速神经体积渲染的自动集成, CVPR2021 | [code]

    数值积分是科学计算的基础技术,是许多计算机视觉应用的核心。在这些应用中,隐式神经体绘制最近被提出作为视图合成的新范式,实现逼真的图像质量。然而,使这些方法实用的一个基本障碍是在训练和推理期间沿渲染光线所需的体积积分导致的极端计算和内存要求。需要数百万条光线,每条光线都需要数百次通过神经网络的前向传播,才能通过蒙特卡罗采样来近似这些集成。在这里,我们提出了自动积分,这是一种使用隐式神经表示网络来学习有效的、封闭形式的积分解决方案的新框架。对于训练,我们实例化对应于隐式神经表示的导数的计算图。该图适合要积分的信号。优化后,我们重新组装图以获得代表反导数的网络。根据微积分的基本定理,这可以在网络的两次评估中计算任何定积分。使用这种方法,我们展示了超过 10 倍的计算要求改进,从而实现了快速的神经体绘制。

  • DeRF:分解的辐射场 | [code]

    随着神经辐射场 (NeRF) 的出现,神经网络现在可以渲染 3D 场景的新颖视图,其质量足以愚弄人眼。然而,生成这些图像的计算量非常大,限制了它们在实际场景中的适用性。在本文中,我们提出了一种基于空间分解的技术,能够缓解这个问题。我们的主要观察结果是,使用更大(更深和/或更宽)的网络会带来收益递减。因此,我们建议对场景进行空间分解,并为每个分解部分分配更小的网络。当一起工作时,这些网络可以渲染整个场景。这使我们无论分解部分的数量如何,都能获得近乎恒定的推理时间。此外,我们表明,Voronoi 空间分解更适合此目的,因为它可证明与 Painter 算法兼容,可实现高效且 GPU 友好的渲染。我们的实验表明,对于现实世界的场景,我们的方法提供的推理效率比 NeRF 高出 3 倍(具有相同的渲染质量),或者 PSNR 提高了 1.0~dB(对于相同的推理成本)。

  • DONeRF:使用 Depth Oracle Networks 实现紧凑神经辐射场的实时渲染, CGF2021 | [code]

    最近围绕神经辐射场 (NeRFs) 的研究爆炸表明,在神经网络中隐式存储场景和照明信息具有巨大的潜力,例如,用于生成新的视图。然而,阻止 NeRF 广泛使用的一个主要限制是沿每个视图射线进行过多网络评估的计算成本过高,当针对当前设备上的实时渲染时需要数十 petaFLOPS。我们表明,当将局部样本放置在场景中的表面周围时,可以显着减少每个视图光线所需的样本数量。为此,我们提出了一个深度预言网络,它通过单个网络评估来预测每个视图光线的光线样本位置。我们表明,使用围绕对数离散和球面扭曲深度值的分类网络对于编码表面位置而不是直接估计深度至关重要。这些技术的结合产生了 DONeRF,这是一种双网络设计,第一步是深度预言网络,以及用于光线累积的局部采样着色网络。通过我们的设计,与 NeRF 相比,我们将推理成本降低了 48 倍。使用现成的推理 API 与简单的计算内核相结合,我们率先在单个 GPU 上以交互式帧速率(每秒 15 帧,800x800)渲染基于光线追踪的神经表示。同时,由于我们专注于表面周围场景的重要部分,与 NeRF 相比,我们获得了相同或更好的质量。

  • FastNeRF:200FPS 的高保真神经渲染, ICCV2021 | [code]

    最近关于神经辐射场 (NeRF) 的工作展示了如何使用神经网络对复杂的 3D 环境进行编码,这些环境可以从新颖的视角进行逼真的渲染。渲染这些图像对计算的要求非常高,最近的改进距离实现交互速率还有很长的路要走,即使在高端硬件上也是如此。受移动和混合现实设备场景的启发,我们提出了 FastNeRF,这是第一个基于 NeRF 的系统,能够在高端消费 GPU 上以 200Hz 渲染高保真逼真图像。我们方法的核心是受图形启发的分解,它允许 (i) 在空间中的每个位置紧凑地缓存深度辐射图,(ii) 使用光线方向有效地查询该图以估计渲染图像中的像素值。大量实验表明,所提出的方法比原始的 NeRF 算法快 3000 倍,并且比现有的加速 NeRF 的工作至少快一个数量级,同时保持视觉质量和可扩展性。

  • KiloNeRF:使用数千个微型 MLP 加速神经辐射场, ICCV2021 | [code]

    NeRF 通过将神经辐射场拟合到 RGB 图像,以前所未有的质量合成场景的新视图。然而,NeRF 需要数百万次查询深度多层感知器 (MLP),导致渲染时间变慢,即使在现代 GPU 上也是如此。在本文中,我们证明了通过使用数千个微型 MLP 而不是一个大型 MLP,实时渲染是可能的。在我们的设置中,每个单独的 MLP 只需要表示场景的一部分,因此可以使用更小、更快评估的 MLP。通过将这种分而治之的策略与进一步的优化相结合,与原始 NeRF 模型相比,渲染速度提高了三个数量级,而不会产生高昂的存储成本。此外,使用师生蒸馏进行培训,我们表明可以在不牺牲视觉质量的情况下实现这种加速。

  • 用于实时渲染神经辐射场的 PlenOctrees, ICCV2021(oral) | [code]

    实时性能是通过将 NeRF 预先制成基于八叉树的辐射场(我们称为 PlenOctrees)来实现的。为了保留与视图相关的效果,例如镜面反射,我们建议通过封闭形式的球面基函数对外观进行编码。具体来说,我们表明可以训练 NeRFs 来预测辐射的球谐表示,将观察方向作为神经网络的输入。此外,我们表明我们的 PlenOctrees 可以直接优化以进一步最小化重建损失,这导致与竞争方法相同或更好的质量。我们进一步表明,这个八叉树优化步骤可用于加快训练时间,因为我们不再需要等待 NeRF 训练完全收敛。我们的实时神经渲染方法可能会支持新的应用,例如 6 自由度工业和产品可视化,以及下一代 AR/VR 系统。

  • 用于高效神经渲染的体积基元混合, SIGGRAPH2021 | [code]

    人类的实时渲染和动画是游戏、电影和远程呈现应用中的核心功能。现有方法有许多我们的工作旨在解决的缺点。三角形网格难以建模像头发这样的细结构,像神经体积这样的体积表示在合理的内存预算下分辨率太低,而像神经辐射场这样的高分辨率隐式表示在实时应用中使用太慢。我们提出了体积基元混合(MVP),一种用于渲染动态 3D 内容的表示,它结合了体积表示的完整性和基于基元的渲染的效率,例如,基于点或基于网格的方法。我们的方法通过利用具有反卷积架构的空间共享计算以及通过使用可以移动以仅覆盖被占用区域的体积基元来最小化空间空白区域中的计算来实现这一点。我们的参数化支持对应和跟踪约束的集成,同时对经典跟踪失败的区域具有鲁棒性,例如薄或半透明结构周围以及具有大拓扑可变性的区域。 MVP 是一种混合体,它概括了基于体积和基元的表示。通过一系列广泛的实验,我们证明它继承了每种方法的优点,同时避免了它们的许多局限性。我们还将我们的方法与几种最先进的方法进行比较,并证明 MVP 在质量和运行时性能方面产生了卓越的结果。

  • 光场网络:具有单次评估渲染的神经场景表示, NeurIPS2021(spotlight) | [code]

    从 2D 观察推断 3D 场景的表示是计算机图形学、计算机视觉和人工智能的基本问题。新兴的 3D 结构神经场景表示是一种有前途的 3D 场景理解方法。在这项工作中,我们提出了一种新的神经场景表示,光场网络或 LFN,它通过神经隐式表示在 360 度、四维光场中表示底层 3D 场景的几何形状和外观。渲染来自 LFN 的光线只需要单个网络评估,而 3D 结构化神经场景表示中的光线行进或基于体积的渲染器每条光线需要数百次评估。在简单场景的设置中,我们利用元学习来学习 LFN 的先验,从而能够从单个图像观察中进行多视图一致的光场重建。这导致时间和内存复杂性的显着降低,并实现了实时渲染。通过 LFN 存储 360 度光场的成本比 Lumigraph 等传统方法低两个数量级。利用神经隐式表示的分析可微性和光空间的新参数化,我们进一步证明了从 LFN 中提取稀疏深度图。

  • 深度监督的 NeRF:更少的视图和更快的免费训练, CVPR2022 | [code]

    当输入视图数量不足时,通常观察到的神经辐射场 (NeRF) 故障模式会拟合不正确的几何形状。一个潜在的原因是标准体积渲染不会强制执行大多数场景几何体由空白空间和不透明表面组成的约束。我们通过 DS-NeRF(深度监督神经辐射场)将上述假设形式化,这是一种利用现成的深度监督学习辐射场的损失。我们利用当前的 NeRF 管道需要具有已知相机姿势的图像这一事实,这些图像通常通过运行从运动结构 (SFM) 来估计。至关重要的是,SFM 还产生稀疏 3D 点,可在训练期间用作“免费”深度监督:我们添加损失以鼓励光线的终止深度分布匹配给定的 3D 关键点,并结合深度不确定性。 DS-NeRF 可以在训练视图更少的情况下渲染更好的图像,同时训练速度提高 2-3 倍。此外,我们表明我们的损失与最近提出的其他 NeRF 方法兼容,证明深度是一种廉价且易于消化的监督信号。最后,我们发现 DS-NeRF 可以支持其他类型的深度监督,例如扫描深度传感器和 RGB-D 重建输出。

  • 直接体素网格优化:辐射场重建的超快速收敛, CVPR2022(oral) | [code]

    我们提出了一种超快速收敛方法,用于从一组捕获具有已知姿势的场景的图像中重建每个场景的辐射场。这项任务通常应用于新颖的视图合成,最近因其最先进的质量和灵活性而被神经辐射场 (NeRF) 彻底改变。然而,对于单个场景,NeRF 及其变体需要很长的训练时间,从数小时到数天不等。相比之下,我们的方法实现了与 NeRF 相当的质量,并在不到 15 分钟的时间内使用单个 GPU 从头开始​​快速收敛。我们采用由用于场景几何的密度体素网格和具有浅层网络的特征体素网格组成的表示,用于复杂的依赖于视图的外观。使用显式和离散化的体积表示进行建模并不新鲜,但我们提出了两种简单但非平凡的技术,有助于快速收敛和高质量输出。首先,我们介绍了体素密度的激活后插值,它能够以较低的网格分辨率产生锐利的表面。其次,直接体素密度优化容易出现次优几何解决方案,因此我们通过强加几个先验来加强优化过程。最后,对五个内向基准的评估表明,我们的方法与 NeRF 的质量相匹配,甚至超过,但从头开始训练新场景只需要大约 15 分钟。

  • 野外的 NeRF:无约束照片集的神经辐射场, CVPR2021 | [code]

    我们提出了一种基于学习的方法,用于仅使用野外照片的非结构化集合来合成复杂场景的新视图。我们建立在神经辐射场 (NeRF) 的基础上,它使用多层感知器的权重将场景的密度和颜色建模为 3D 坐标的函数。虽然 NeRF 在受控设置下捕获的静态对象的图像上效果很好,但它无法在不受控的图像中模拟许多普遍存在的真实世界现象,例如可变照明或瞬态遮挡物。我们为 NeRF 引入了一系列扩展来解决这些问题,从而能够从互联网上获取的非结构化图像集合中进行准确的重建。我们将我们的系统(称为 NeRF-W)应用于著名地标的互联网照片集,并展示时间一致的新颖视图渲染,这些渲染比现有技术更接近真实感。

  • Ha-NeRF:野外的幻觉神经辐射场, CVPR2022 | [code]

    神经辐射场 (NeRF) 最近因其令人印象深刻的新颖视图合成能力而广受欢迎。本文研究了幻觉 NeRF 的问题:即在一天中的不同时间从一组旅游图像中恢复一个真实的 NeRF。现有的解决方案采用具有可控外观嵌入的 NeRF 在各种条件下渲染新颖的视图,但它们无法渲染具有看不见的外观的视图一致图像。为了解决这个问题,我们提出了一个用于构建幻觉 NeRF 的端到端框架,称为 Ha-NeRF。具体来说,我们提出了一个外观幻觉模块来处理随时间变化的外观并将它们转移到新的视图中。考虑到旅游图像的复杂遮挡,我们引入了一个反遮挡模块来准确地分解静态主体以获得可见性。合成数据和真实旅游照片集的实验结果表明,我们的方法可以产生幻觉,并从不同的视图呈现无遮挡的图像。

  • Nerfies:可变形的神经辐射场, ICCV2021 | [code]

    我们提出了第一种能够使用从手机随便捕获的照片/视频来逼真地重建可变形场景的方法。我们的方法通过优化一个额外的连续体积变形场来增强神经辐射场 (NeRF),该场将每个观察点扭曲成一个规范的 5D NeRF。我们观察到这些类似 NeRF 的变形场容易出现局部最小值,并为基于坐标的模型提出了一种从粗到细的优化方法,可以实现更稳健的优化。通过将几何处理和物理模拟的原理应用于类似 NeRF 的模型,我们提出了变形场的弹性正则化,进一步提高了鲁棒性。我们表明,我们的方法可以将随意捕获的自拍照片/视频转换为可变形的 NeRF 模型,允许从任意视角对主体进行逼真的渲染,我们称之为“nerfies”。我们通过使用带有两部手机的装备收集时间同步数据来评估我们的方法,从而在不同视点产生相同姿势的训练/验证图像。我们表明,我们的方法忠实地重建了非刚性变形的场景,并以高保真度再现了看不见的视图。

  • D-NeRF:动态场景的神经辐射场, CVPR2021 | [code]

    将机器学习与几何推理相结合的神经渲染技术已成为从一组稀疏图像中合成场景新视图的最有前途的方法之一。其中,神经辐射场 (NeRF) 尤为突出,它训练深度网络将 5D 输入坐标(表示空间位置和观察方向)映射为体积密度和与视图相关的发射辐射。然而,尽管在生成的图像上实现了前所未有的真实感水平,但 NeRF 仅适用于静态场景,其中可以从不同的图像中查询相同的空间位置。在本文中,我们介绍了 D-NeRF,这是一种将神经辐射场扩展到动态域的方法,允许在场景中移动的 \emph{single} 相机的刚性和非刚性运动下重建和渲染物体的新图像。为此,我们将时间视为系统的附加输入,并将学习过程分为两个主要阶段:一个将场景编码为规范空间,另一个将这个规范表示映射到特定时间的变形场景。两种映射都是使用全连接网络同时学习的。一旦网络经过训练,D-NeRF 就可以渲染新颖的图像,同时控制相机视图和时间变量,从而控制对象的移动。我们展示了我们的方法在物体处​​于刚性、关节和非刚性运动的场景中的有效性。代码、模型权重和动态场景数据集将发布。

  • 用于单目 4D 面部头像重建的动态神经辐射场, CVPR2021 | [code]

    我们提出了用于模拟人脸外观和动态的动态神经辐射场。对说话的人进行数字建模和重建是各种应用程序的关键组成部分。特别是对于 AR 或 VR 中的远程呈现应用,需要忠实再现外观,包括新颖的视点或头部姿势。与显式建模几何和材料属性或纯粹基于图像的最先进方法相比,我们引入了基于场景表示网络的头部隐式表示。为了处理面部的动态,我们将场景表示网络与低维可变形模型相结合,该模型提供对姿势和表情的显式控制。我们使用体积渲染从这种混合表示中生成图像,并证明这种动态神经场景表示只能从单目输入数据中学习,而不需要专门的捕获设置。在我们的实验中,我们表明这种学习的体积表示允许生成照片般逼真的图像,其质量超过了基于视频的最先进的重演方法的质量。

  • 非刚性神经辐射场:单目视频变形场景的重建和新视图合成,, ICCV2021 | [code]

    我们提出了非刚性神经辐射场 (NR-NeRF),这是一种用于一般非刚性动态场景的重建和新颖的视图合成方法。我们的方法将动态场景的 RGB 图像作为输入(例如,来自单目视频记录),并创建高质量的时空几何和外观表示。我们表明,单个手持消费级相机足以从新颖的虚拟相机视图合成动态场景的复杂渲染,例如一个“子弹时间”的视频效果。 NR-NeRF 将动态场景分解为规范体积及其变形。场景变形被实现为光线弯曲,其中直线光线被非刚性变形。我们还提出了一种新的刚性网络来更好地约束场景的刚性区域,从而获得更稳定的结果。射线弯曲和刚性网络在没有明确监督的情况下进行训练。我们的公式可以实现跨视图和时间的密集对应估计,以及引人注目的视频编辑应用程序,例如运动夸张。我们的代码将是开源的。

  • PVA:像素对齐的体积化身, CVPR2021 | [code]

    逼真的人头的采集和渲染是一个极具挑战性的研究问题,对于虚拟远程呈现特别重要。目前,最高质量是通过在多视图数据上以个人特定方式训练的体积方法实现的。与更简单的基于网格的模型相比,这些模型更好地表示精细结构,例如头发。体积模型通常使用全局代码来表示面部表情,以便它们可以由一小组动画参数驱动。虽然这样的架构实现了令人印象深刻的渲染质量,但它们不能轻易地扩展到多身份设置。在本文中,我们设计了一种新颖的方法,用于在仅给定少量输入的情况下预测人头的体积化身。我们通过一种新颖的参数化实现跨身份的泛化,该参数化将神经辐射场与直接从输入中提取的局部像素对齐特征相结合,从而避免了对非常深或复杂网络的需求。我们的方法仅基于光度重新渲染损失以端到端的方式进行训练,无需明确的 3D 监督。我们证明我们的方法在质量方面优于现有的现有技术,并且能够生成忠实的面部表情多身份设置。

  • 神经关节辐射场, ICCV2021 | [code]

    我们提出了神经关节辐射场 (NARF),这是一种新颖的可变形 3D 表示,用于从图像中学习到的关节对象。虽然 3D 隐式表示的最新进展使得学习复杂对象的模型成为可能,但学习关节对象的姿势可控表示仍然是一个挑战,因为当前的方法需要 3D 形状监督并且无法呈现外观。在制定 3D 关节对象的隐式表示时,我们的方法在求解每个 3D 位置的辐射场时仅考虑最相关对象部分的刚性变换。通过这种方式,所提出的方法可以表示与姿势相关的变化,而不会显着增加计算复杂度。 NARF 是完全可微的,可以从带有姿势注释的图像中训练出来。此外,通过使用自动编码器,它可以学习对象类的多个实例的外观变化。实验表明,所提出的方法是有效的,并且可以很好地推广到新的姿势。

  • CLA-NeRF:类别级关节神经辐射场, ICRA2022 | [code]

    我们提出了 CLA-NeRF——一种类别级的关节神经辐射场,可以执行视图合成、部分分割和关节姿态估计。 CLA-NeRF 在对象类别级别进行训练,不使用 CAD 模型和深度,而是使用一组具有地面实况相机姿势和部分片段的 RGB 图像。在推理过程中,只需对已知类别中未见过的 3D 对象实例进行少量 RGB 视图(即少镜头)即可推断对象部分分割和神经辐射场。给定一个关节姿态作为输入,CLA-NeRF 可以执行关节感知体积渲染,以在任何相机姿态下生成相应的 RGB 图像。此外,可以通过逆向渲染来估计对象的关节姿势。在我们的实验中,我们对合成数据和真实数据的五个类别的框架进行了评估。在所有情况下,我们的方法都显示了真实的变形结果和准确的关节姿态估计。我们相信,少量的关节对象渲染和关节姿势估计都为机器人感知和与看不见的关节对象交互打开了大门。

  • 用于人体建模的动画神经辐射场, ICCV2021 | [code]

    本文解决了从多视图视频中重建可动画人体模型的挑战。最近的一些工作提出将非刚性变形场景分解为规范神经辐射场和一组将观察空间点映射到规范空间的变形场,从而使他们能够从图像中学习动态场景。然而,它们将变形场表示为平移矢量场或 SE(3) 场,这使得优化受到高度约束。此外,这些表示不能由输入运动明确控制。相反,我们引入了神经混合权重场来产生变形场。基于骨架驱动的变形,混合权重场与 3D 人体骨骼一起使用,以生成观察到规范和规范到观察的对应关系。由于 3D 人体骨骼更易观察,它们可以规范变形场的学习。此外,学习到的混合权重场可以与输入的骨骼运动相结合,以生成新的变形场来为人体模型设置动画。实验表明,我们的方法明显优于最近的人类合成方法。该代码将在 https://zju3dv.github.io/animatable_nerf/ 上提供。

  • 神经演员:具有姿势控制的人类演员的神经自由视图合成, SIGSIGGRAPH Asia 2021 | [code]

    我们提出了神经演员 (NA),这是一种从任意视角和任意可控姿势下高质量合成人类的新方法。我们的方法建立在最近的神经场景表示和渲染工作之上,这些工作仅从 2D 图像中学习几何和外观的表示。虽然现有作品展示了令人信服的静态场景渲染和动态场景回放,但使用神经隐式方法对人类进行逼真的重建和渲染,特别是在用户控制的新姿势下,仍然很困难。为了解决这个问题,我们利用粗体模型作为代理将周围的 3D 空间展开为规范姿势。神经辐射场从多视图视频输入中学习规范空间中与姿势相关的几何变形以及与姿势和视图相关的外观效果。为了合成高保真动态几何和外观的新视图,我们利用在身体模型上定义的 2D 纹理图作为潜在变量来预测残余变形和动态外观。实验表明,我们的方法在回放和新颖的姿势合成方面取得了比现有技术更好的质量,甚至可以很好地推广到与训练姿势截然不同的新姿势。此外,我们的方法还支持合成结果的体形控制。

  • 用于动态场景时空视图合成的神经场景流场, CVPR2021 | [code]

    我们提出了一种方法来执行动态场景的新颖视图和时间合成,只需要具有已知相机姿势的单目视频作为输入。为此,我们引入了神经场景流场,这是一种将动态场景建模为外观、几何和 3D 场景运动的时变连续函数的新表示。我们的表示通过神经网络进行优化,以适应观察到的输入视图。我们表明,我们的表示可用于复杂的动态场景,包括薄结构、视图相关效果和自然运动度。我们进行了许多实验,证明我们的方法明显优于最近的单目视图合成方法,并展示了各种真实世界视频的时空视图合成的定性结果。

  • 神经体:具有结构化潜在代码的隐式神经表示,用于动态人类的新视图合成, CVPR2021 | [code]

    本文解决了人类表演者从一组非常稀疏的摄像机视图中合成新颖视图的挑战。最近的一些工作表明,在给定密集输入视图的情况下,学习 3D 场景的隐式神经表示可以实现显着的视图合成质量。但是,如果视图高度稀疏,则表示学习将是不适定的。为了解决这个不适定问题,我们的关键思想是整合对视频帧的观察。为此,我们提出了神经体,这是一种新的人体表示,它假设在不同帧上学习到的神经表示共享同一组锚定到可变形网格的潜在代码,以便可以自然地整合跨帧的观察结果。可变形网格还为网络提供几何指导,以更有效地学习 3D 表示。为了评估我们的方法,我们创建了一个名为 ZJU-MoCap 的多视图数据集,用于捕捉具有复杂动作的表演者。 ZJU-MoCap 的实验表明,我们的方法在新颖的视图合成质量方面大大优于先前的工作。我们还展示了我们的方法从 People-Snapshot 数据集上的单目视频重建移动人物的能力。

  • 来自多视图视频的神经 3D 视频合成, CVPR2022(oral) | [code]

    我们提出了一种新颖的 3D 视频合成方法,能够以紧凑但富有表现力的表示形式表示动态真实世界场景的多视图视频记录,从而实现高质量的视图合成和运动插值。我们的方法将静态神经辐射场的高质量和紧凑性带到了一个新的方向:无模型的动态设置。我们方法的核心是一种新颖的时间条件神经辐射场,它使用一组紧凑的潜在代码来表示场景动态。为了利用视频相邻帧之间的变化通常很小且局部一致的事实,我们提出了两种有效训练神经网络的新策略:1)有效的分层训练方案,以及 2)选择根据输入视频的时间变化进行训练的下一条光线。结合起来,这两种策略显着提高了训练速度,导致训练过程快速收敛,并获得高质量的结果。我们学习的表示非常紧凑,能够表示由 18 个摄像机录制的 10 秒 30 FPS 多视图视频,模型大小仅为 28MB。我们证明了我们的方法可以以超过 1K 的分辨率渲染高保真广角新颖视图,即使对于高度复杂和动态的场景也是如此。我们进行了广泛的定性和定量评估,表明我们的方法优于当前的技术水平。项目网站:https://neural-3d-video.github.io。

  • 动态单目视频的动态视图合成, ICCV2021 | [code]

    我们提出了一种算法,用于在给定动态场景的单目视频的任意视点和任何输入时间步长处生成新视图。我们的工作建立在神经隐式表示的最新进展的基础上,并使用连续和可微的函数来建模时变结构和场景的外观。我们联合训练一个时不变的静态 NeRF 和一个时变的动态 NeRF,并学习如何以无监督的方式混合结果。然而,从单个视频中学习这个隐式函数是非常不适定的(与输入视频匹配的解决方案有无限多)。为了解决歧义,我们引入了正则化损失以鼓励更合理的解决方案。我们展示了从随意捕获的视频中进行动态视图合成的广泛定量和定性结果。

  • GRAF:用于 3D 感知图像合成的生成辐射场, NeurIPS2020 | [code]

    虽然 2D 生成对抗网络已经实现了高分辨率图像合成,但它们在很大程度上缺乏对 3D 世界和图像形成过程的理解。因此,它们不提供对相机视点或物体姿势的精确控制。为了解决这个问题,最近的几种方法将基于中间体素的表示与可微渲染相结合。然而,现有方法要么产生低图像分辨率,要么在解开相机和场景属性方面存在不足,例如,对象身份可能随视点而变化。在本文中,我们提出了一种辐射场的生成模型,该模型最近被证明在单个场景的新颖视图合成方面是成功的。与基于体素的表示相比,辐射场并不局限于 3D 空间的粗略离散化,还允许解开相机和场景属性,同时在存在重建模糊性的情况下优雅地退化。通过引入基于多尺度补丁的鉴别器,我们展示了高分辨率图像的合成,同时仅从未定位的 2D 图像训练我们的模型。我们系统地分析了我们在几个具有挑战性的合成和现实世界数据集上的方法。我们的实验表明,辐射场是生成图像合成的强大表示,可生成以高保真度渲染的 3D 一致模型。

  • GRF:学习用于 3D 场景表示和渲染的一般辐射场, ICCV2021(oral) | [code]

    我们提出了一个简单而强大的神经网络,它仅从 2D 观察中隐式表示和渲染 3D 对象和场景。该网络将 3D 几何建模为一般辐射场,它以一组具有相机位姿和内在函数的 2D 图像作为输入,为 3D 空间的每个点构建内部表示,然后渲染该点的相应外观和几何观察从任意位置。我们方法的关键是学习 2D 图像中每个像素的局部特征,然后将这些特征投影到 3D 点,从而产生一般和丰富的点表示。我们还集成了一种注意力机制来聚合来自多个 2D 视图的像素特征,从而隐式考虑视觉遮挡。大量实验表明,我们的方法可以为新物体、看不见的类别和具有挑战性的现实世界场景生成高质量和逼真的新视图。

  • pixelNeRF:来自一个或几个图像的神经辐射场, CVPR2021 | [code]

    我们提出了 pixelNeRF,这是一种学习框架,可以预测以一个或几个输入图像为条件的连续神经场景表示。构建神经辐射场的现有方法涉及独立优化每个场景的表示,需要许多校准视图和大量计算时间。我们通过引入一种以完全卷积方式在图像输入上调节 NeRF 的架构,朝着解决这些缺点迈出了一步。这允许网络在多个场景中进行训练,以先学习一个场景,使其能够从一组稀疏的视图(少至一个)以前馈方式执行新颖的视图合成。利用 NeRF 的体积渲染方法,我们的模型可以直接从图像中训练,无需明确的 3D 监督。我们在 ShapeNet 基准上进行了广泛的实验,用于具有保留对象以及整个未见类别的单图像新颖视图合成任务。我们通过在多对象 ShapeNet 场景和来自 DTU 数据集的真实场景上展示 pixelNeRF 的灵活性,进一步展示了它的灵活性。在所有情况下,对于新颖的视图合成和单图像 3D 重建,pixelNeRF 都优于当前最先进的基线。有关视频和代码,请访问项目网站:此 https 网址

  • 用于优化基于坐标的神经表示的学习初始化, CVPR2021 | [code]

    基于坐标的神经表示已显示出作为复杂低维信号的离散、基于数组的表示的替代方案的重要前景。然而,从每个新信号的随机初始化权重优化基于坐标的网络是低效的。我们建议应用标准的元学习算法来学习这些全连接网络的初始权重参数,这些参数基于所表示的底层信号类别(例如,面部图像或椅子的 3D 模型)。尽管只需要在实现中进行微小的更改,但使用这些学习到的初始权重可以在优化过程中实现更快的收敛,并且可以作为所建模信号类的强先验,从而在只有给定信号的部分观察可用时产生更好的泛化。我们在各种任务中探索这些好处,包括表示 2D 图像、重建 CT 扫描以及从 2D 图像观察中恢复 3D 形状和场景。

  • pi-GAN:用于 3D 感知图像合成的周期性隐式生成对抗网络, CVPR2021(oral) | [code]

    我们见证了 3D 感知图像合成的快速进展,利用了生成视觉模型和神经渲染的最新进展。然而,现有方法在两个方面存在不足:首先,它们可能缺乏底层 3D 表示或依赖于视图不一致的渲染,因此合成的图像不是多视图一致的;其次,它们通常依赖于表达能力不足的表示网络架构,因此它们的结果缺乏图像质量。我们提出了一种新颖的生成模型,称为周期性隐式生成对抗网络(π-GAN 或 pi-GAN),用于高质量的 3D 感知图像合成。 π-GAN 利用具有周期性激活函数和体积渲染的神经表示将场景表示为具有精细细节的视图一致的 3D 表示。所提出的方法获得了具有多个真实和合成数据集的 3D 感知图像合成的最新结果。

  • 单张图像的人像神经辐射场 | [code]

    我们提出了一种从单个爆头肖像估计神经辐射场 (NeRF) 的方法。虽然 NeRF 已经展示了高质量的视图合成,但它需要静态场景的多个图像,因此对于随意捕捉和移动主体是不切实际的。在这项工作中,我们建议使用使用灯光舞台肖像数据集的元学习框架来预训练多层感知器 (MLP) 的权重,该多层感知器隐含地对体积密度和颜色进行建模。为了提高对看不见的人脸的泛化能力,我们在由 3D 人脸可变形模型近似的规范坐标空间中训练 MLP。我们使用受控捕获对方法进行定量评估,并展示了对真实肖像图像的泛化性,显示出对最先进技术的有利结果。

  • ShaRF:单一视图的形状条件辐射场, ICML2021 | [code]

    我们提出了一种方法,用于估计仅给定单个图像的对象的神经场景表示。我们方法的核心是估计物体的几何支架,并将其用作重建底层辐射场的指导。我们的公式基于一个生成过程,该过程首先将潜在代码映射到体素化形状,然后将其渲染为图像,对象外观由第二个潜在代码控制。在推理过程中,我们优化了潜在代码和网络以适应新对象的测试图像。形状和外观的明确解开允许我们的模型在给定单个图像的情况下进行微调。然后,我们可以以几何一致的方式渲染新视图,它们忠实地表示输入对象。此外,我们的方法能够推广到训练域之外的图像(更逼真的渲染甚至真实照片)。最后,推断的几何支架本身就是对物体 3D 形状的准确估计。我们在几个实验中证明了我们的方法在合成图像和真实图像中的有效性。

  • IBRNet:学习基于图像的多视图渲染, CVPR2021 | [code]

    我们提出了一种通过插入一组稀疏的附近视图来合成复杂场景的新视图的方法。我们方法的核心是一个网络架构,其中包括一个多层感知器和一个光线转换器,用于估计连续 5D 位置(3D 空间位置和 2D 观察方向)的辐射和体积密度,从多个源视图动态绘制外观信息。通过在渲染时绘制源视图,我们的方法回归了基于图像的渲染 (IBR) 的经典工作,并允许我们渲染高分辨率图像。与优化每个场景函数以进行渲染的神经场景表示工作不同,我们学习了一种通用视图插值函数,该函数可以推广到新场景。我们使用经典的体渲染来渲染图像,这是完全可微的,并且允许我们仅使用多视图姿势图像作为监督进行训练。实验表明,我们的方法优于最近的新视图合成方法,这些方法也试图推广到新场景。此外,如果在每个场景上进行微调,我们的方法与最先进的单场景神经渲染方法具有竞争力。项目页面:此 https 网址

  • CAMPARI:相机感知分解生成神经辐射场 | [code]

    深度生成模型的巨大进步导致了逼真的图像合成。在取得令人信服的结果的同时,大多数方法都在二维图像域中运行,而忽略了我们世界的三维性质。因此,最近的几项工作提出了具有 3D 感知能力的生成模型,即场景以 3D 建模,然后可微分地渲染到图像平面。这导致了令人印象深刻的 3D 一致性,但纳入这种偏差是有代价的:相机也需要建模。当前的方法假定固定的内在函数和预先定义的相机姿势范围。因此,实际数据通常需要参数调整,如果数据分布不匹配,结果会下降。我们的关键假设是,与图像生成器一起学习相机生成器会导致更原则性的 3D 感知图像合成方法。此外,我们建议将场景分解为背景和前景模型,从而实现更有效和更清晰的场景表示。在从原始的、未定型的图像集合中进行训练时,我们学习了一个 3D 和相机感知的生成模型,它不仅忠实地恢复了图像,而且还忠实地恢复了相机数据分布。在测试时,我们的模型生成的图像可以显式控制相机以及场景的形状和外观。

  • NeRF-VAE:几何感知 3D 场景生成模型 | [code]

    我们提出了 NeRF-VAE,这是一种 3D 场景生成模型,它通过 NeRF 和可微体渲染结合了几何结构。与 NeRF 相比,我们的模型考虑了跨场景的共享结构,并且能够使用摊销推理推断新场景的结构——无需重新训练。 NeRF-VAE 的显式 3D 渲染过程进一步将先前的生成模型与缺乏几何结构的基于卷积的渲染进行对比。我们的模型是一个 VAE,它通过在潜在场景表示上调节辐射场来学习辐射场的分布。我们表明,经过训练,NeRF-VAE 能够使用很少的输入图像从以前看不见的 3D 环境中推断和渲染几何一致的场景。我们进一步证明了 NeRF-VAE 可以很好地推广到分布式相机,而卷积模型则不能。最后,我们介绍并研究了 NeRF-VAE 解码器的一种基于注意力的调节机制,该机制提高了模型性能。

  • 具有局部条件辐射场的无约束场景生成, ICCV2021 | [code]

    我们遵循对抗性学习框架,其中生成器通过其辐射场对场景进行建模,鉴别器尝试区分从这些辐射场渲染的图像和真实场景的图像。从概念上讲,我们的模型将场景的辐射场分解为许多小的局部辐射场,这些辐射场是由二维潜在代码 W 网格上的条件产生的。W 可以解释为表示场景的潜在平面图。

  • MVSNeRF:从多视图立体快速概括辐射场重建, ICCV2021 | [code]

    我们提出了 MVSNeRF,一种新颖的神经渲染方法,可以有效地重建神经辐射场以进行视图合成。与先前的神经辐射场工作考虑对密集捕获的图像进行逐场景优化不同,我们提出了一个通用的深度神经网络,它可以通过快速网络推理仅从三个附近的输入视图重建辐射场。我们的方法利用平面扫描成本体积(广泛用于多视图立体)进行几何感知场景推理,并将其与基于物理的体积渲染相结合用于神经辐射场重建。我们在 DTU 数据集中的真实对象上训练我们的网络,并在三个不同的数据集上对其进行测试,以评估其有效性和普遍性。我们的方法可以跨场景(甚至是室内场景,与我们的对象训练场景完全不同)进行泛化,并仅使用三个输入图像生成逼真的视图合成结果,显着优于可泛化辐射场重建的并行工作。此外,如果捕捉到密集的图像,我们估计的辐射场表示可以很容易地进行微调;与 NeRF 相比,这导致具有更高渲染质量和更短优化时间的快速每场景重建。

  • 立体辐射场 (SRF):从新场景的稀疏视图中学习视图合成, CVPR2021 | [code]

    最近的神经视图合成方法取得了令人印象深刻的质量和真实性,超越了依赖多视图重建的经典管道。最先进的方法,例如 NeRF,旨在使用神经网络学习单个场景,并且需要密集的多视图输入。在新场景上进行测试需要从头开始重新训练,这需要 2-3 天。在这项工作中,我们介绍了立体辐射场 (SRF),这是一种端到端训练的神经视图合成方法,可以推广到新场景,并且在测试时只需要稀疏视图。核心思想是一种受经典多视图立体方法启发的神经架构,它通过在立体图像中找到相似的图像区域来估计表面点。在 SRF 中,我们预测每个 3D 点的颜色和密度,给定输入图像中立体对应的编码。编码是通过成对相似性的集合隐式学习的——模拟经典立体声。实验表明,SRF 在场景上学习结构而不是过度拟合。我们在 DTU 数据集的多个场景上进行训练,并在不重新训练的情况下推广到新场景,只需要 10 个稀疏和展开的视图作为输入。我们展示了 10-15 分钟的微调进一步改善了结果,与特定场景的模型相比,获得了更清晰、更详细的结果。代码、模型和视频可在此 https 网址上找到。

  • 用于遮挡感知的基于图像的渲染的神经射线, CVPR2022 | [code]

    我们提出了一种新的神经表示,称为神经射线 (NeuRay),用于新的视图合成任务。最近的工作从输入视图的图像特征构建辐射场以渲染新颖的视图图像,从而能够泛化到新场景。但是,由于遮挡,3D 点可能对某些输入视图不可见。在这样的 3D 点上,这些泛化方法将包括来自不可见视图的不一致图像特征,这会干扰辐射场的构建。为了解决这个问题,我们在 NeuRay 表示中预测 3D 点对输入视图的可见性。这种可见性使辐射场构建能够专注于可见图像特征,从而显着提高其渲染质量。同时,提出了一种新颖的一致性损失,以在对特定场景进行微调时改进 NeuRay 中的可见性。实验表明,我们的方法在推广到看不见的场景时在新颖的视图合成任务上实现了最先进的性能,并且在微调后优于每个场景的优化方法。

  • 节食 NeRF:语义一致的 Few-Shot 视图合成, ICCV2021 | [code]

    我们提出了 DietNeRF,一种从几张图像估计的 3D 神经场景表示。神经辐射场 (NeRF) 通过多视图一致性学习场景的连续体积表示,并且可以通过光线投射从新颖的视点进行渲染。虽然 NeRF 在给定许多图像的情况下具有令人印象深刻的重建几何和精细细节的能力,对于具有挑战性的 360° 场景最多可重建 100 个,但当只有少数输入视图可用时,它通常会为其图像重建目标找到退化的解决方案。为了提高few-shot质量,我们提出了DietNeRF。我们引入了一种辅助语义一致性损失,它鼓励以新颖的姿势进行逼真的渲染。 DietNeRF 在单个场景上进行训练,以 (1) 从相同的姿势正确渲染给定的输入视图,以及 (2) 在不同的随机姿势中匹配高级语义属性。我们的语义损失使我们能够从任意姿势监督 DietNeRF。我们使用预训练的视觉编码器提取这些语义,例如 CLIP,这是一种视觉转换器,通过自然语言监督从网络挖掘出的数亿张不同的单视图 2D 照片进行训练。在实验中,DietNeRF 在从头开始学习时提高了少镜头视图合成的感知质量,在多视图数据集上进行预训练时,可以用少至一张观察到的图像渲染新视图,并生成完全未观察到的区域的合理完成。

  • 使用 NeRF 实现新视图合成的连续深度 MPI, ICCV2021 | [code]

    在本文中,我们建议 MINE 通过从单个图像进行密集 3D 重建来执行新颖的视图合成和深度估计。我们的方法是通过引入神经辐射场 (NeRF) 对多平面图像 (MPI) 进行连续深度泛化。给定单个图像作为输入,MINE 预测任意深度值的 4 通道图像(RGB 和体积密度)以联合重建相机平截头体并填充被遮挡的内容。然后可以使用可微分渲染轻松地将重建和修复的截锥体渲染为新颖的 RGB 或深度视图。在 RealEstate10K、KITTI 和 Flowers Light Fields 上进行的大量实验表明,我们的 MINE 在新颖的视图合成中大大优于最先进的技术。我们还在 iBims-1 和 NYU-v2 的深度估计方面取得了具有竞争力的结果,而无需注释深度监督。我们的源代码可在此 https 网址获得

  • TöRF:动态场景视图合成的飞行时间辐射场, NeurIPS2021 | [code]

    神经网络可以表示和准确重建静态 3D 场景(例如 NeRF)的辐射场。一些作品将这些扩展到用单目视频捕获的动态场景,并具有可观的性能。然而,众所周知,单眼设置是一个约束不足的问题,因此方法依赖于数据驱动的先验来重建动态内容。我们用飞行时间 (ToF) 相机的测量值替换这些先验,并引入基于连续波 ToF 相机图像形成模型的神经表示。我们不使用处理过的深度图,而是对原始 ToF 传感器测量进行建模,以提高重建质量并避免低反射率区域、多路径干扰和传感器有限的明确深度范围等问题。我们展示了这种方法提高了动态场景重建对错误校准和大运动的鲁棒性,并讨论了集成现代智能手机上现在可用的 RGB+ToF 传感器的好处和局限性。

  • CodeNeRF:对象类别的解开神经辐射场, ICCV2021(oral) | [code]

    CodeNeRF 是一种隐式 3D 神经表示,它学习对象形状和纹理在一个类别中的变化,并且可以从一组姿势图像中进行训练,以合成看不见的对象的新视图。与特定场景的原始 NeRF 不同,CodeNeRF 通过学习单独的嵌入来学习解开形状和纹理。在测试时,给定一个看不见的物体的单个未定位图像,CodeNeRF 通过优化联合估计相机视点、形状和外观代码。看不见的物体可以从单个图像中重建,然后从新的视点渲染,或者通过改变潜在代码编辑它们的形状和纹理。我们在 SRN 基准上进行了实验,结果表明 CodeNeRF 可以很好地泛化到看不见的对象,并且在测试时需要已知相机姿态的方法达到同等性能。我们在真实世界图像上的结果表明,CodeNeRF 可以弥合模拟到真实的差距。

  • StyleNeRF:用于高分辨率图像合成的基于样式的 3D 感知生成器, ICLR2022 | [code]

    我们提出了 StyleNeRF,这是一种 3D 感知生成模型,用于具有高多视图一致性的逼真的高分辨率图像合成,可以在非结构化 2D 图像上进行训练。现有方法要么无法合成具有精细细节的高分辨率图像,要么产生明显的 3D 不一致伪影。此外,他们中的许多人缺乏对风格属性和明确的 3D 相机姿势的控制。 StyleNeRF 将神经辐射场 (NeRF) 集成到基于样式的生成器中,以应对上述挑战,即提高渲染效率和 3D 一致性以生成高分辨率图像。我们执行体积渲染只是为了生成一个低分辨率的特征图,并在 2D 中逐步应用上采样来解决第一个问题。为了减轻 2D 上采样引起的不一致性,我们提出了多种设计,包括更好的上采样器和新的正则化损失。通过这些设计,StyleNeRF 可以以交互速率合成高分辨率图像,同时保持高质量的 3D 一致性。 StyleNeRF 还可以控制相机姿势和不同级别的样式,可以推广到看不见的视图。它还支持具有挑战性的任务,包括放大和缩小、样式混合、反转和语义编辑。

  • 黑暗中的 NeRF:来自嘈杂原始图像的高动态范围视图合成, CVPR2022(oral) | [code]

    神经辐射场 (NeRF) 是一种从姿势输入图像的集合中合成高质量新颖视图的技术。与大多数视图合成方法一样,NeRF 使用色调映射低动态范围(LDR)作为输入;这些图像已由有损相机管道处理,该管道可以平滑细节、剪辑高光并扭曲原始传感器数据的简单噪声分布。我们将 NeRF 修改为直接在线性原始图像上进行训练,保留场景的完整动态范围。通过从生成的 NeRF 渲染原始输出图像,我们可以执行新颖的高动态范围 (HDR) 视图合成任务。除了改变相机视角之外,我们还可以在事后操纵焦点、曝光和色调映射。尽管单个原始图像看起来比后处理的图像噪声大得多,但我们表明 NeRF 对原始噪声的零均值分布具有高度鲁棒性。当针对许多嘈杂的原始输入 (25-200) 进行优化时,NeRF 生成的场景表示非常准确,以至于其渲染的新颖视图优于在相同宽基线输入图像上运行的专用单图像和多图像深度原始降噪器。因此,我们的方法(我们称为 RawNeRF)可以从在近黑暗中捕获的极其嘈杂的图像中重建场景。

  • iNeRF:用于姿势估计的反转神经辐射场, IROS2021 | [code]

    我们提出了 iNeRF,这是一个通过“反转”经过训练的神经辐射场 (NeRF) 来执行姿态估计的框架。 NeRF 已被证明对视图合成任务非常有效——合成真实世界场景或对象的逼真的新视图。在这项工作中,我们研究是否可以使用 NeRF 进行综合分析来进行 6DoF 姿势估计——给定图像,找到相机相对于 3D 模型的平移和旋转。从初始姿态估计开始,我们使用梯度下降来最小化从已经训练的 NeRF 渲染的像素和观察图像中的像素之间的残差。在我们的实验中,我们首先研究 1)如何在 iNeRF 的姿势细化过程中对光线进行采样以收集信息梯度,以及 2)不同批次大小的光线如何影响合成数据集上的 iNeRF。然后,我们展示了对于来自 LLFF 数据集的复杂现实世界场景,iNeRF 可以通过估计新图像的相机位姿并将这些图像用作 NeRF 的额外训练数据来改进 NeRF。最后,我们展示了 iNeRF 可以与基于特征的姿势初始化相结合。该方法优于所有其他依赖 LineMOD 上的合成数据的基于 RGB 的方法。

  • A-NeRF:通过神经渲染进行无表面人体 3D 姿势细化, NeurIPS2021 | [code]

    虽然深度学习使用前馈网络重塑了经典的运动捕捉管道,但需要生成模型通过迭代细化来恢复精细对齐。不幸的是,现有模型通常是在受控条件下手工制作或学习的,仅适用于有限的领域。我们提出了一种通过扩展神经辐射场 (NeRFs) 从未标记的单目视频中学习生成神经体模型的方法。我们为它们配备了骨架,以适用于时变和关节运动。一个关键的见解是,隐式模型需要与显式曲面模型中使用的正向运动学相反。我们的重新参数化定义了相对于身体部位姿势的空间潜在变量,从而克服了过度参数化的不适定逆运算。这使得从头开始学习体积身体形状和外观,同时共同改进关节姿势;输入视频上的所有外观、姿势或 3D 形状都没有地面实况标签。当用于新视图合成和动作捕捉时,我们的神经模型提高了不同数据集的准确性。项目网站:此 https 网址。

  • NeRF--:没有已知相机参数的神经辐射场 | [code]

    考虑到仅来自一组 2D 图像的新视图合成 (NVS) 问题,我们通过消除已知或预先计算的相机参数的要求,简化了前向场景中神经辐射场 (NeRF) 的训练过程,包括内在函数和 6DoF 姿势。为此,我们提出了 NeRF−−,具有三个贡献:首先,我们表明相机参数可以通过光度重建作为可学习参数与 NeRF 训练联合优化;其次,为了对相机参数估计和新颖视图渲染的质量进行基准测试,我们引入了一个新的路径跟踪合成场景数据集,称为 Blender Forward-Facing Dataset (BLEFF);第三,我们进行了广泛的分析以了解各种相机运动下的训练行为,并表明在大多数情况下,联合优化管道可以恢复准确的相机参数并实现与使用 COLMAP 预计算相机参数训练的方法相当的新视图合成质量。

  • 实时隐式映射和定位, ICCV2021 | [code]

    我们首次展示了多层感知器 (MLP) 可以作为手持 RGB-D 相机的实时 SLAM 系统中唯一的场景表示。我们的网络在没有先验数据的情况下进行实时操作训练,构建了一个密集的、特定于场景的隐式 3D 占用率和颜色模型,该模型也可立即用于跟踪。

  • 用于 SLAM 的 NICE-SLAM 神经隐​​式可扩展编码, CVPR2022 | [code]

    神经隐式表示最近在各个领域都显示出令人鼓舞的结果,包括在同时定位和映射 (SLAM) 方面取得的可喜进展。然而,现有方法会产生过度平滑的场景重建,并且难以扩展到大场景。这些限制主要是由于它们简单的全连接网络架构没有在观察中包含本地信息。在本文中,我们提出了 NICE-SLAM,这是一种密集的 SLAM 系统,它通过引入分层场景表示来结合多级局部信息。使用预先训练的几何先验优化这种表示可以在大型室内场景中进行详细的重建。与最近的神经隐式 SLAM 系统相比,我们的方法更具可扩展性、高效性和鲁棒性。在五个具有挑战性的数据集上的实验证明了 NICE-SLAM 在映射和跟踪质量方面的竞争结果。

  • GNeRF:基于 GAN 的无姿势相机的神经辐射场, ICCV2021(oral) | [code]

    我们介绍了 GNeRF,这是一个将生成对抗网络 (GAN) 与神经辐射场 (NeRF) 重建相结合的框架,用于具有未知甚至随机初始化相机姿势的复杂场景。最近基于 NeRF 的进展因显着的逼真的新视图合成而受到欢迎。然而,它们中的大多数严重依赖于准确的相机位姿估计,而最近的一些方法只能在相机轨迹相对较短的大致前向场景中优化未知相机位姿,并且需要粗略的相机位姿初始化。不同的是,我们的 GNeRF 仅将随机初始化的姿势用于复杂的由外而内的场景。我们提出了一种新颖的两阶段端到端框架。第一阶段将 GAN 的使用带入新领域,以联合优化粗略的相机姿势和辐射场,而第二阶段通过额外的光度损失对它们进行细化。我们使用混合迭代优化方案克服了局部最小值。对各种合成和自然场景的广泛实验证明了 GNeRF 的有效性。更令人印象深刻的是,我们的方法在那些以前被认为极具挑战性的重复模式甚至低纹理的场景中优于基线。

  • BARF:捆绑调整神经辐射场, ICCV2021(oral) | [code]

    神经辐射场 (NeRF) 最近在计算机视觉界引起了极大的兴趣,因为它具有合成真实世界场景的逼真的新颖视图的能力。然而,NeRF 的一个限制是它需要准确的相机姿势来学习场景表示。在本文中,我们提出了 Bundle-Adjusting Neural Radiance Fields (BARF),用于从不完美(甚至未知)的相机姿势训练 NeRF——学习神经 3D 表示和注册相机帧的联合问题。我们建立了与经典图像对齐的理论联系,并表明从粗到细的配准也适用于 NeRF。此外,我们表明,在 NeRF 中天真地应用位置编码会对基于合成的目标的注册产生负面影响。合成数据和真实世界数据的实验表明,BARF 可以有效地优化神经场景表示并同时解决大的相机位姿错位问题。这使得来自未知相机位姿的视频序列的视图合成和定位成为可能,为视觉定位系统(例如 SLAM)和密集 3D 映射和重建的潜在应用开辟了新途径。

  • 自校准神经辐射场, ICCV2021 | [code]

    在这项工作中,我们提出了一种用于具有任意非线性失真的通用相机的相机自校准算法。我们共同学习场景的几何形状和准确的相机参数,无需任何校准对象。我们的相机模型包括针孔模型、径向失真和可以学习任意非线性相机失真的通用噪声模型。虽然传统的自校准算法主要依赖于几何约束,但我们还结合了光度一致性。这需要学习场景的几何形状,我们使用神经辐射场 (NeRF)。我们还提出了一种新的几何损失函数,即投影射线距离损失,以结合复杂非线性相机模型的几何一致性。我们在标准真实图像数据集上验证了我们的方法,并证明我们的模型可以从头开始学习相机的内在和外在(姿势),而无需 COLMAP 初始化。此外,我们表明,以可微分的方式学习准确的相机模型可以让我们在 NeRF 上提高 PSNR。我们通过实验证明我们提出的方法适用于 NeRF 的变体。此外,我们使用一组用鱼眼镜头拍摄的图像来证明学习相机模型与 COLMAP 初始化相比,共同提高了性能。

  • NeRD:来自图像集合的神经反射分解, ICCV2021 | [code]

    将场景分解为其形状、反射率和照明度是计算机视觉和图形学中一个具有挑战性但重要的问题。当照明不是实验室条件下的单一光源而是不受约束的环境照明时,这个问题本质上更具挑战性。尽管最近的工作表明可以使用隐式表示来模拟物体的辐射场,但这些技术中的大多数只能实现视图合成而不是重新照明。此外,评估这些辐射场是资源和时间密集型的。我们提出了一种神经反射分解 (NeRD) 技术,该技术使用基于物理的渲染将场景分解为空间变化的 BRDF 材料属性。与现有技术相比,我们的输入图像可以在不同的照明条件下捕获。此外,我们还提出了将学习到的反射体积转换为可重新照明的纹理网格的技术,从而能够使用新颖的照明进行快速实时渲染。我们通过在合成数据集和真实数据集上的实验证明了所提出方法的潜力,我们能够从图像集合中获得高质量的可重新点亮的 3D 资产。

  • NeRV:用于重新照明和视图合成的神经反射率和可见性场, CVPR2021 | [code]

    我们提出了一种方法,该方法将由不受约束的已知照明照明的场景的一组图像作为输入,并生成可以在任意照明条件下从新视点渲染的 3D 表示作为输出。我们的方法将场景表示为参数化为 MLP 的连续体积函数,其输入是 3D 位置,其输出是该输入位置的以下场景属性:体积密度、表面法线、材料参数、到任何方向上第一个表面交点的距离,以及任何方向的外部环境的可见性。总之,这些允许我们在任意照明下渲染物体的新视图,包括间接照明效果。预测的能见度和表面相交场对于我们的模型在训练期间模拟直接和间接照明的能力至关重要,因为先前工作使用的蛮力技术对于具有单灯的受控设置之外的照明条件是难以处理的。我们的方法在恢复可重新照明的 3D 场景表示方面优于替代方法,并且在对先前工作构成重大挑战的复杂照明设置中表现良好。

  • NeX:具有神经基础扩展的实时视图合成, CVPR2021(oral) | [code]

    我们提出了 NeX,这是一种基于多平面图像 (MPI) 增强的新型视图合成的新方法,可以实时再现 NeXt 级别的视图相关效果。与使用一组简单 RGBα 平面的传统 MPI 不同,我们的技术通过将每个像素参数化为从神经网络学习的基函数的线性组合来模拟视图相关的效果。此外,我们提出了一种混合隐式-显式建模策略,该策略改进了精细细节并产生了最先进的结果。我们的方法在基准前向数据集以及我们新引入的数据集上进行了评估,该数据集旨在测试与视图相关的建模的极限,具有明显更具挑战性的效果,例如 CD 上的彩虹反射。我们的方法在这些数据集的所有主要指标上都取得了最好的总体得分,渲染时间比现有技术快 1000 倍以上。

  • NeRFactor:未知光照下形状和反射率的神经分解, TOG 2021 (Proc. SIGGRAPH Asia) | [code]

    我们解决了从由一种未知光照条件照射的物体的多视图图像(及其相机姿势)中恢复物体的形状和空间变化反射率的问题。这使得能够在任意环境照明下渲染对象的新颖视图并编辑对象的材质属性。我们方法的关键,我们称之为神经辐射分解(NeRFactor),是提取神经辐射场(NeRF)的体积几何[Mildenhall et al。 2020] 将对象表示为表面表示,然后在解决空间变化的反射率和环境照明的同时联合细化几何。具体来说,NeRFactor 在没有任何监督的情况下恢复表面法线、光能见度、反照率和双向反射分布函数 (BRDF) 的 3D 神经场,仅使用重新渲染损失、简单的平滑先验和从真实数据中学习的数据驱动的 BRDF 先验-世界BRDF测量。通过显式建模光可见性,NeRFactor 能够从反照率中分离出阴影,并在任意光照条件下合成逼真的软阴影或硬阴影。 NeRFactor 能够恢复令人信服的 3D 模型,用于在合成场景和真实场景的这种具有挑战性且约束不足的捕获设置中进行自由视点重新照明。定性和定量实验表明,NeRFactor 在各种任务中都优于经典和基于深度学习的最新技术。我们的视频、代码和数据可在 people.csail.mit.edu/xiuming/projects/nerfactor/ 上找到。

  • NeRF++:分析和改进神经辐射场 | [code]

    神经辐射场 (NeRF) 为各种捕捉设置实现了令人印象深刻的视图合成结果,包括有界场景的 360 度捕捉以及有界和无界场景的前向捕捉。 NeRF 将表示视图不变不透明度和视图相关颜色体积的多层感知器 (MLP) 拟合到一组训练图像,并基于体积渲染技术对新视图进行采样。在这份技术报告中,我们首先评论了辐射场及其潜在的模糊性,即形状-辐射模糊度,并分析了 NeRF 在避免这种模糊性方面的成功。其次,我们解决了将 NeRF 应用于大规模、无界 3D 场景中对象的 360 度捕获所涉及的参数化问题。我们的方法在这种具有挑战性的场景中提高了视图合成保真度。此 https 网址提供了代码。

  • GIRAFFE:将场景表示为合成生成神经特征场, CVPR2021(oral) | [code]

    深度生成模型允许以高分辨率进行逼真的图像合成。但对于许多应用程序来说,这还不够:内容创建还需要可控。虽然最近的几项工作研究了如何解开数据变化的潜在因素,但它们中的大多数都在 2D 中运行,因此忽略了我们的世界是 3D 的。此外,只有少数作品考虑场景的构图性质。我们的关键假设是,将合成 3D 场景表示合并到生成模型中会导致更可控的图像合成。将场景表示为合成生成神经特征场使我们能够从背景中解开一个或多个对象以及单个对象的形状和外观,同时从非结构化和未定型的图像集合中学习,而无需任何额外的监督。将这种场景表示与神经渲染管道相结合,可以生成快速且逼真的图像合成模型。正如我们的实验所证明的那样,我们的模型能够解开单个对象,并允许在场景中平移和旋转它们以及改变相机姿势。

  • 以对象为中心的神经场景渲染 | [code]

    我们提出了一种从捕获的对象图像中合成逼真场景的方法。我们的工作建立在神经辐射场 (NeRFs) 之上,它隐含地模拟了场景的体积密度和定向发射的辐射。虽然 NeRF 可以合成逼真的图片,但它们只对静态场景进行建模,并且与特定的成像条件密切相关。这个属性使得 NeRFs 难以泛化到新场景,包括新的光照或对象的新排列。我们建议学习以对象为中心的神经散射函数 (OSF),而不是像 NeRF 那样学习场景辐射场,这是一种使用与光照和视图相关的神经网络隐式模拟每个对象的光传输的表示。即使物体或灯光移动,这也可以渲染场景,而无需重新训练。结合体积路径跟踪程序,我们的框架能够渲染对象内和对象间的光传输效果,包括遮挡、镜面反射、阴影和间接照明。我们评估了我们的场景合成方法,并表明它可以推广到新的照明条件,产生逼真的、物理上精确的多对象场景渲染。

  • 学习动态人头的组成辐射场, CVPR2021(oral) | [code]

    动态人体的逼真渲染是远程呈现系统、虚拟购物、合成数据生成等的重要能力。最近,结合计算机图形学和机器学习技术的神经渲染方法已经创建了人类和物体的高保真模型。其中一些方法不会为可驱动的人体模型(神经体积)产生足够高保真度的结果,而其他方法则具有极长的渲染时间(NeRF)。我们提出了一种新颖的组合 3D 表示,它结合了以前最好的方法来产生更高分辨率和更快的结果。我们的表示通过将粗略的 3D 结构感知动画代码网格与连续学习的场景函数相结合,弥合了离散和连续体积表示之间的差距,该函数将每个位置及其相应的局部动画代码映射到其与视图相关的发射辐射和局部体积密度。可微分体渲染用于计算人头和上身的照片般逼真的新颖视图,并仅使用 2D 监督来端到端训练我们的新颖表示。此外,我们表明,学习到的动态辐射场可用于基于全局动画代码合成新的看不见的表情。我们的方法在合成动态人头和上半身的新视图方面取得了最先进的结果。

  • 动态场景的神经场景图, CVPR2021(oral) | [code]

    最近的隐式神经渲染方法表明,可以通过仅由一组 RGB 图像监督的预测其体积密度和颜色来学习复杂场景的准确视图合成。然而,现有方法仅限于学习将所有场景对象编码为单个神经网络的静态场景的有效表示,并且缺乏将动态场景表示和分解为单个场景对象的能力。在这项工作中,我们提出了第一个将动态场景分解为场景图的神经渲染方法。我们提出了一种学习的场景图表示,它对对象变换和辐射进行编码,以有效地渲染场景的新颖排列和视图。为此,我们学习隐式编码的场景,并结合联合学习的潜在表示来描述具有单个隐式函数的对象。我们在合成和真实汽车数据上评估所提出的方法,验证我们的方法学习动态场景 - 仅通过观察该场景的视频 - 并允许渲染具有看不见的对象集的新颖场景组合的新颖照片般逼真的视图看不见的姿势。

  • 物体辐射场的无监督发现, ICLR2022 | [code]

    我们研究从单个图像推断以对象为中心的场景表示的问题,旨在推导出解释图像形成过程的表示,捕捉场景的 3D 性质,并且在没有监督的情况下学习。由于将复杂的 3D 到 2D 图像形成过程集成到强大的推理方案(如深度网络)中存在根本性挑战,大多数现有的场景分解方法都缺乏这些特征中的一个或多个。在本文中,我们提出了对象辐射场 (uORF) 的无监督发现,将神经 3D 场景表示和渲染的最新进展与深度推理网络相结合,用于无监督 3D 场景分解。在没有注释的多视图 RGB 图像上进行训练,uORF 学习从单个图像分解具有不同纹理背景的复杂场景。我们展示了 uORF 在无监督 3D 场景分割、新视图合成和三个数据集上的场景编辑方面表现良好。

  • 学习用于可编辑场景渲染的对象组合神经辐射场, ICCV2021 | [code]

    隐式神经渲染技术已经显示出用于新视图合成的有希望的结果。然而,现有方法通常将整个场景编码为一个整体,这通常不知道对象身份,并且限制了移动或添加家具等高级编辑任务的能力。在本文中,我们提出了一种新颖的神经场景渲染系统,该系统学习对象组成的神经辐射场,并为集群和真实世界场景生成具有编辑能力的逼真渲染。具体来说,我们设计了一种新颖的双路径架构,其中场景分支对场景几何和外观进行编码,对象分支根据可学习的对象激活码对每个独立对象进行编码。为了在严重混乱的场景中进行训练,我们提出了一种场景引导的训练策略来解决遮挡区域中的 3D 空间模糊性并学习每个对象的清晰边界。大量实验表明,我们的系统不仅在静态场景新视图合成方面取得了有竞争力的性能,而且为对象级编辑产生了逼真的渲染。

  • 使用隐式场景表示进行就地场景标记和理解, ICCV2021(oral) | [code]

    语义标签与几何和辐射重建高度相关,因为具有相似形状和外观的场景实体更有可能来自相似的类别。最近的隐式神经重建技术很有吸引力,因为它们不需要事先的训练数据,但同样的完全自我监督的方法对于语义来说是不可能的,因为标签是人类定义的属性。

  • 编辑条件辐射场, ICCV2021 | [code]

    神经辐射场 (NeRF) 是支持高质量视图合成的场景模型,针对每个场景进行了优化。在本文中,我们探索启用用户编辑类别级 NeRF - 也称为条件辐射场 - 在形状类别上训练。具体来说,我们介绍了一种将粗略的 2D 用户涂鸦传播到 3D 空间的方法,以修改局部区域的颜色或形状。首先,我们提出了一个条件辐射场,它结合了新的模块化网络组件,包括一个跨对象实例共享的形状分支。观察同一类别的多个实例,我们的模型在没有任何监督的情况下学习底层部分语义,从而允许将粗略的 2D 用户涂鸦传播到整个 3D 区域(例如,椅子座位)。接下来,我们提出了一种针对特定网络组件的混合网络更新策略,该策略平衡了效率和准确性。在用户交互过程中,我们制定了一个既满足用户约束又保留原始对象结构的优化问题。我们在三个形状数据集上展示了我们在各种编辑任务上的方法,并表明它优于以前的神经编辑方法。最后,我们编辑真实照片的外观和形状,并显示编辑传播到外推的新视图。

  • 使用分层神经表示的可编辑自由视点视频, SIGGRAPH2021 | [code]

    生成自由视点视频对于沉浸式 VR/AR 体验至关重要,但最近的神经学进展仍然缺乏编辑能力来操纵大型动态场景的视觉感知。为了填补这一空白,在本文中,我们提出了第一种仅使用稀疏的 16 个摄像头为大规模动态场景生成可编辑照片般逼真的自由视点视频的方法。我们方法的核心是一种新的分层神经表示,其中包括环境本身的每个动态实体都被制定为称为 ST-NeRF 的时空相干神经分层辐射表示。这种分层表示支持对动态场景的完全感知和真实操作,同时仍支持大范围的自由观看体验。在我们的 ST-NeRF 中,动态实体/层被表示为连续函数,以连续和自监督的方式实现动态实体的位置、变形以及外观的解耦。我们提出了一个场景解析 4D 标签映射跟踪来显式地解开空间信息,以及一个连续变形模块来隐式地解开时间运动。进一步引入了一种对象感知体绘制方案,用于重新组装所有神经层。我们采用了一种新颖的分层损失和运动感知光线采样策略,以实现对具有多个表演者的大型动态场景的有效训练,我们的框架进一步实现了各种编辑功能,即操纵规模和位置,复制或重新定时单个神经层在保持高度真实感的同时创造众多视觉效果。大量实验证明了我们的方法在为动态场景生成高质量、照片般逼真和可编辑的自由视点视频方面的有效性。

  • Fig-NeRF:用于 3D 对象类别建模的图地面神经辐射场, 3DV2021 | [code]

    我们研究使用神经辐射场 (NeRF) 从输入图像的集合中学习高质量的 3D 对象类别模型。与以前的工作相比,我们能够做到这一点,同时将前景对象与不同的背景分开。我们通过 2 分量 NeRF 模型 FiG-NeRF 实现了这一点,该模型更喜欢将场景解释为几何恒定的背景和代表对象类别的可变形前景。我们表明,这种方法可以仅使用光度监督和随意捕获的对象图像来学习准确的 3D 对象类别模型。此外,我们的两部分分解允许模型执行准确和清晰的模态分割。我们使用合成的、实验室捕获的和野外数据,通过视图合成和图像保真度指标对我们的方法进行定量评估。我们的结果证明了令人信服的 3D 对象类别建模,其性能超过了现有方法的性能。

  • NeRF-Tex:神经反射场纹理, EGSR2021 | [code]

    我们研究使用神经场来模拟不同的中尺度结构,例如毛皮、织物和草。我们建议使用由神经反射场 (NeRF-Tex) 表示的多功能体积基元,而不是使用经典的图形基元来建模结构,它联合建模材料的几何形状及其对照明的响应。 NeRF-Tex 原语可以在基础网格上实例化,以使用所需的细观和微尺度外观对其进行“纹理化”。我们根据控制外观的用户定义参数来调节反射率场。因此,单个 NeRF 纹理捕获了反射场的整个空间,而不是一个特定的结构。这增加了可以建模的外观范围,并提供了一种解决重复纹理伪影的解决方案。我们还证明了 NeRF 纹理自然地促进了连续的细节层次渲染。我们的方法将神经网络的多功能性和建模能力与虚拟场景精确建模所需的艺术控制相结合。虽然我们所有的训练数据目前都是合成的,但我们的工作提供了一个方法,可以进一步扩展以从真实图像中提取复杂、难以建模的外观。

  • Mip-NeRF:抗锯齿神经辐射场的多尺度表示, ICCV2021(oral) | [code]

    神经辐射场 (NeRF) 使用的渲染过程对每个像素单条射线进行采样,因此在训练或测试图像以不同分辨率观察场景内容时,可能会产生过度模糊或混叠的渲染。对于 NeRF 来说,通过每个像素渲染多条光线来进行超级采样的直接解决方案是不切实际的,因为渲染每条光线需要查询多层感知器数百次。我们的解决方案,我们称之为“mip-NeRF”(à la“mipmap”),扩展了 NeRF 以在连续值的尺度上表示场景。通过有效地渲染抗锯齿圆锥截头体而不是射线,mip-NeRF 减少了令人反感的锯齿伪影并显着提高了 NeRF 表示精细细节的能力,同时也比 NeRF 快 7% 和一半的大小。与 NeRF 相比,mip-NeRF 在使用 NeRF 呈现的数据集上将平均错误率降低了 17%,在我们呈现的该数据集的具有挑战性的多尺度变体上降低了 60%。 mip-NeRF 还能够在我们的多尺度数据集上匹配蛮力超采样 NeRF 的准确性,同时速度提高 22 倍。

  • UNISURF:统一神经隐式表面和辐射场以进行多视图重建, ICCV2021(oral) | [code]

    神经隐式 3D 表示已成为从多视图图像重建表面和合成新视图的强大范例。不幸的是,DVR 或 IDR 等现有方法需要精确的每像素对象掩码作为监督。同时,神经辐射场已经彻底改变了新的视图合成。然而,NeRF 的估计体积密度不允许精确的表面重建。我们的主要见解是隐式表面模型和辐射场可以以统一的方式制定,从而使用相同的模型实现表面和体积渲染。这种统一的视角实现了新颖、更有效的采样程序,并能够在没有输入掩码的情况下重建准确的表面。我们在 DTU、BlendedMVS 和合成室内数据集上比较我们的方法。我们的实验表明,我们在重建质量方面优于 NeRF,同时在不需要掩码的情况下与 IDR 相当。

  • NeuS:通过体渲染学习神经隐式表面以进行多视图重建, NeurIPS2021 | [code]

    我们提出了一种新的神经表面重建方法,称为 NeuS,用于从 2D 图像输入中重建具有高保真度的对象和场景。现有的神经表面重建方法,如 DVR 和 IDR,需要前景掩码作为监督,容易陷入局部最小值,因此难以重建具有严重自遮挡或薄结构的物体。同时,最近用于新视图合成的神经方法,例如 NeRF 及其变体,使用体积渲染来生成具有优化鲁棒性的神经场景表示,即使对于高度复杂的对象也是如此。然而,从这种学习到的隐式表示中提取高质量的表面是很困难的,因为表示中没有足够的表面约束。在 NeuS 中,我们建议将表面表示为有符号距离函数 (SDF) 的零级集,并开发一种新的体绘制方法来训练神经 SDF 表示。我们观察到传统的体绘制方法会导致表面重建的固有几何误差(即偏差),因此提出了一种新的公式,该公式在一阶近似中没有偏差,从而即使没有掩模监督也能实现更准确的表面重建.在 DTU 数据集和 BlendedMVS 数据集上的实验表明,NeuS 在高质量表面重建方面优于最先进的技术,特别是对于具有复杂结构和自遮挡的物体和场景。

  • 神经隐式表面的体积渲染, NeurIPS2021 | [code]

    神经体绘制最近变得越来越流行,因为它成功地从一组稀疏的输入图像中合成了场景的新视图。到目前为止,通过神经体绘制技术学习的几何图形是使用通用密度函数建模的。此外,几何本身是使用密度函数的任意水平集提取的,这会导致嘈杂的、通常是低保真度的重建。本文的目标是改进神经体绘制中的几何表示和重建。我们通过将体积密度建模为几何形状的函数来实现这一点。这与之前将几何建模为体积密度函数的工作形成对比。更详细地说,我们将体积密度函数定义为应用于有符号距离函数 (SDF) 表示的拉普拉斯累积分布函数 (CDF)。这种简单的密度表示具有三个好处:(i)它为在神经体绘制过程中学习的几何图形提供了有用的归纳偏差; (ii) 它有助于限制不透明度近似误差,从而实现对视线的准确采样。准确的采样对于提供几何和辐射的精确耦合很重要; (iii) 它允许在体积渲染中对形状和外观进行有效的无监督解开。将这种新的密度表示应用于具有挑战性的场景多视图数据集产生了高质量的几何重建,优于相关的基线。此外,由于两者的分离,可以在场景之间切换形状和外观。

  • NerfingMVS:室内多视角立体神经辐射场的引导优化, ICCV2021(oral) | [code]

    在这项工作中,我们提出了一种新的多视图深度估计方法,该方法在最近提出的神经辐射场 (NeRF) 上利用了传统的 SfM 重建和基于学习的先验。与现有的依赖于估计对应的基于神经网络的优化方法不同,我们的方法直接优化隐式体积,消除了在室内场景中匹配像素的挑战性步骤。我们方法的关键是利用基于学习的先验来指导 NeRF 的优化过程。我们的系统首先通过微调其稀疏 SfM 重建来适应目标场景上的单目深度网络。然后,我们证明了 NeRF 的形状-辐射模糊性仍然存在于室内环境中,并建议通过采用适应的深度先验来监控体绘制的采样过程来解决这个问题。最后,通过对渲染图像进行误差计算获得的每像素置信度图可用于进一步提高深度质量。实验表明,我们提出的框架在室内场景中显着优于最先进的方法,在基于对应的优化和基于 NeRF 的优化对适应深度先验的有效性方面提出了令人惊讶的发现。此外,我们表明引导优化方案不会牺牲神经辐射场的原始合成能力,提高了可见视图和新视图的渲染质量。

  • 用于视觉运动控制的 3D 神经场景表示, CoRL2021(oral) | [code]

    人类对我们周围的 3D 环境有着强烈的直觉理解。我们大脑中的物理心智模型适用于不同材料的物体,使我们能够执行远远超出当前机器人范围的广泛操作任务。在这项工作中,我们希望纯粹从 2D 视觉观察中学习动态 3D 场景的模型。我们的模型结合了神经弧度

  • 神经辐射世界中的仅视觉机器人导航 | [code]

    神经辐射场 (NeRFs) 最近已成为表示自然、复杂 3D 场景的强大范例。 NeRF 表示神经网络中的连续体积密度和 RGB 值,并通过光线追踪从看不见的相机视点生成照片般逼真的图像。我们提出了一种算法,用于在表示为 NeRF 的 3D 环境中导航机器人,仅使用板载 RGB 相机进行定位。我们假设场景的 NeRF 已经离线预训练,机器人的目标是在 NeRF 中的未占用空间中导航以达到目标姿势。我们引入了一种轨迹优化算法,该算法基于离散时间版本的差分平坦度避免与 NeRF 中的高密度区域发生碰撞,该版本可以约束机器人的完整姿势和控制输入。我们还引入了一种基于优化的过滤方法来估计 NeRF 中机器人的 6DoF 姿势和速度,仅给定一个板载 RGB 相机。我们将轨迹规划器与位姿过滤器结合在一个在线重新规划循环中,以提供基于视觉的机器人导航管道。我们展示了一个四旋翼机器人仅使用 RGB 相机在丛林健身房环境、教堂内部和巨石阵中导航的模拟结果。我们还演示了一个在教堂中导航的全向地面机器人,要求它重新定向以适应狭窄的缝隙。可以在此 https 网址上找到这项工作的视频。