科技魔方

英伟达为低数据NeRF训练提出频率正则化和遮挡正则化

AR/VR

2023年04月11日

  由于能够呈现高保真度的新视图,神经辐射场(NeRF)在3D计算机视觉和计算机图形学中获得了极大的关注。诸如英伟达等厂商一直有在研究相关的问题。

  对于NeRF,当只有少数输入可用时,它容易过度拟合训练视图,并难以进行新的视图合成。这种从稀疏输入的视图合成问题称为few-shot神经渲染问题。

  现有的方法使用不同的策略来应对这一挑战。诸如PixelNerf和MVSNeRF等转移学习方法需要在大规模定制多视图数据集进行预训练,并在测试时进一步结合每个场景的优化;深度监督方法引入估计深度作为外部监督信号,从而导致复杂的训练管道。Patch-Based正则化方法将来自不同来源的正则化强加给渲染的Patch,并需要以计算开销作为代价。

  针对所述问题,英伟达和加利福尼亚大学洛杉矶分校在一篇名为《FreeNeRF: Improving Few-shot Neural Rendering with Free Frequency Regularization》的论文中提出了一种解决方案:在few-shot设置中,最少只需一行代码,普通的NeRF无需上述策略就可以表现出出色的性能。

  概括来说,研究人员分析了在低数据状态下训练NeRF的常见失败模式。根据这一分析,他们提出了两个正则化项。一个是频率正则化,它直接正则化NeRF输入的可见频带,以稳定学习过程,避免在训练开始时出现灾难性的过拟合;另一个是遮挡正则化,它惩罚导致floater的近camera密度场,这是few-shot神经渲染问题中的另一种失败模式。

  结合起来,团队将这一方法称为FreeNeRF,它的“Free”体现在两方面。

  首先,它是无依赖的。因为它既不需要昂贵的预训练,又不需要额外的监督信号。其次,它是无开销的,因为它不需要额外的训练时间来渲染基于Patch-Based正则化。

  频率正则化

  few-shot神经渲染最常见的失败模式是过拟合。NeRF从一组没有明确的3D几何结构的2D图像中学习3D场景表示。3D几何体是通过优化其2D投影视图中的外观来隐式学习。然而,在只给出几个输入视图的情况下,NeRF容易以较小的损失过度拟合2D图像,同时不能以多视图一致的方式解释3D几何结构。

  从所述模型中合成新视点会导致系统性的失败。如文章上方图像左侧所示,在合成新视图时,没有一个NeRF模型能够成功恢复场景几何结构。few-shot神经渲染中的过拟合问题可能会因高频输入而加剧。研究表明,较高的频率映射能够令高频component更快地收敛。然而,高频的过快收敛阻碍了NeRF探索低频信息,并显著地使NeRF偏向于不期望的高频伪影。

  在few-shot场景中,NeRF对易受影响的噪点更加敏感,因为需要学习相干几何的图像更少。因此,团队假设高频few-shot是在few-shot神经渲染中观察到的失败模式的主要原因,并提出了一种频率正则化方法。

  具体来说,研究人员从没有位置编码的原始输入开始,并随着训练的进行,每次将可见频率线性增加3位。频率正则化在训练开始时避开了不稳定和易受影响的高频信号,并逐渐提供NeRF高频信息以避免过度平滑。以这种方式,可以致使NeRF在训练早前优化低频,从而提升泛化性能

  遮挡正则化

  频率正则化并不能解决few-shot神经渲染中的所有问题。由于训练视图的数量有限以及问题的不适定性,特定特征伪影可能依然存在于新视图中,并通常表现为floater,它们位于离camera非常近的位置。

  为了解决这些问题,研究人员提出了一种简单而有效的遮挡正则化方法,对camera附近的密度场进行惩罚。

  实验表明,reeNeRF在多个数据集优于现有的最先进方法,包括Blender、DTU和LLFF,而且几乎没有额外的计算成本。

  总的来说,研究人员揭示了few-shot神经渲染的失败与位置编码频率之间的联系,这一点通过实证研究得到了进一步验证,并通过所提出的方法得到了解决。团队表示,所述方法是首次尝试从频率角度解决few-shot神经渲染问题。

  另外,他们在从稀疏输入中学习NeRF时发现了另一种常见的失败模式,并用一种新的遮挡正则化来缓解它。这种正则化有效地提高了性能,并在数据集之间进行了泛化。结合起来,他们提出了一个FreeNeRF,它可以通过几行代码修改来实现,同时优于以前最先进的方法。

+1

来源:映维网

推荐文章