英伟达为远程会议通话研发AI 3D视频聊天解决方案

　　第一批商用视频会议系统于50多年前出现，并允许人们能够在看到和听到千里之外的同事，朋友或家人。视频会议的最终目标是实现远程参与者之间的沉浸式通信，就好像大家置身在同一个物理位置一样。

　　尽管3D视频会议的最新发展已经呈现出捕获眼神交流和其他非语言线索的潜力，但现有系统需要昂贵的3D采集设置。

　　所以在一个名为“AI-Mediated 3D Video Conferencing”的项目中，英伟达，美国加利福尼亚大学圣迭戈分校，以及北卡罗来纳大学教堂山分校的人员通过AI人工智能的方法实现了一种高保真低成本的3D远程呈现方法，并且提供了基于3D扫描的方法所无法提供的新功能。

　　另外，团队提出的解决方案支持多种现成的3D显示器，包括立体显示器和光场显示器。

　　值得一提的是，谷歌同样有在利用AI来优化他们的光场通话项目Project Starline。作为说明，Project Starline基本上是一个3D视频聊天室，主要通过光场技术来营造一种对方仿佛真的坐在你对面一样。这个突破性的远程通信工具结合了谷歌在硬件和软件方面的进步，并旨在提升朋友、家人和同事实现远程共在时的临场感。

　　回到英伟达团队的“AI-Mediated 3D Video Conferencing”项目。如上图所示，团队在SIGGRAPH大会展示了所述设置，并撰文进行了介绍。

　　上图显示了系统的管道，它包括一个记录和传输来自单个RGB网络摄像头的2D视频的sender;以及一个接收2D视频并将其提升到3D，从而为相应3D显示呈现新颖视图的receiver。

　　研究人员通过one-shot方法来实时从单一的unposed图像推断和渲染一个真实的3D表示，并在NVIDIA RTX A5000笔记本电脑生成光场图像。利用instant AI super-resolution技术，参与者可以马上看到自己的3D自我影像。在实时情况下，参与者可以看到2D网络摄像头图像提升为头部追踪的立体3D视图。

　　除了使用网络摄像头图片外，用户同时可以选择通过2D Avatar生成器模块来生成并自定义由用户驱动的2D Avatar。

　　在3D提升方面，研究人员提出了一种基于VisionTransformer的全新编码器，以将2D输入转换为有效的三平面隐式3D表示。给定用户的单个RGB图像，所述方法可以自动创建用户的正面3D表示，并通过体三维绘制从新视点进行有效的渲染。

　　三平面编码器完全基于预训练的EG3D生成的合成数据进行训练。3D提升模块采用生成先验，以确保生成的视图是多视图一致和照片真实感新视图，并且能够在没有个人特定训练的情况下以one shot泛化到任何人。

　　至于眼神交流，团队使用最先进的神经方法来合成给定用户图片的重定向眼睛注视，然后将经过注视校正的2D图像提升为3D图像，从而实现眼神交流，如上图所示。

　　团队提出的系统支持多种现成的3D显示器，包括针对单人的立体显示器或针对多人的光场显示器。

　　上图显示了使用来自Dimenco的32英寸3D立体显示器。它使用眼动追踪和透镜来显示用户眼睛位置的立体图像对。a是设置概览;b和c显示了系统能够以正确的视角记录参与者的交叉融合立体对。d和e表明，给定单一的RGB图像，所述方法可以生成照片真实感的远程呈现给出一个单一的RGB图像。

　　另外，研究人员通过一个32英寸的Looking Glass显示器测试了AI系统。其中，多人可以同时在光场显示屏看到一个真实大小的说话人头。这种光场显示器为普通路人和排队等待演示的人员提供了一目了然的技术演示。

　　然后，排队轮候的人员可以尝试位于不同展位的立体显示器，并可以体验多路人工智能介导的3D视频会议电话。

　　需要注意的是，团队使用NVIDIA TensorRT优化了编码器的性能，并在NVIDIA A6000 Ada Generation GPU进行实时推理。系统管道端到端的运行时间不到100毫秒，包括捕获、流式传输和渲染。

英伟达为远程会议通话研发AI 3D视频聊天解决方案

延展资讯