Meta研究员开发三种全新视听理解模型，提升AR/VR沉浸式视听体验

　　日前，Meta Reality Labs的人工智能研究人员和音频专家，以及德克萨斯大学奥斯汀分校的研究人员为开发者带来三种全新的视听理解模型：Visual-Acoustic Matching，Visually-Informed Dereverberation，以及VisualVoice。所述模型专注于视频中的人类声音，并旨在帮助行业以更快的速度实现真正的沉浸式现实。

　　团队表示：“我们非常高兴与开源社区分享这项研究。我们相信，能够理解我们周遭世界的人工智能可以帮助释放令人兴奋的新可能性，并允许人们在混合现实和虚拟现实的体验和交互方式受益。”

　　无论是参加元宇宙派对，还是在客厅通过XR设备浏览家庭电影，声学都会影响相关时刻的体验。Meta表示，他们相信AI将是提供真实声学质量的核心。

　　这三种模型都与团队的视听感知型AI研究密切相关。他们设想的未来是：你可以穿戴AR眼镜，并重新体验画面和声音都如同你站在从有利位置一样的全息记忆。或者说，当你在虚拟世界畅玩游戏时，你不仅可以沉浸在图形之中，而且能够沉浸在声音之中。

　　1. Visual-Acoustic Matching

　　如果你经历过音频与画面不一致的视频，你就会明白Visual-Acoustic Matching/视觉声学匹配的重要程度。但是，匹配从不同环境获取的音频和视频一直都是挑战。

　　为了解决这个问题，Meta创建了一个名为AViTAR的自监督视觉-声学匹配模型，它可以调整音频以匹配目标图像的空间。尽管缺乏声学非匹配音频和未标记数据，但自监督的训练objective可以从in-the-wild网络视频中学习声学匹配。

　　团队感兴趣的一个未来用例涉及重温过去的记忆。想象一下，你届时可以穿戴一副AR眼镜。然后对于你看到的任何对象，你都可以选择播放与之相关的记忆。比方说拿起芭蕾舞短裙，然后看看孩子小时候的芭蕾舞表演全息图。这时，音频消除了混响，画面看起来和听起来就像你当时坐在观众席一样。

　　2. Visually-Informed Dereverberation

　　从视听观察中消除语音的混响。人类扬声器周围的视觉环境揭示了有关房间几何形状、材料和扬声器位置的重要线索，所有这一切都会影响音频流中的精确混响效果。通过Visually-Informed Dereverberation这种基于视觉信息的去混响技术，系统可以根据观察到的声音和视觉场景来学习去除混响，从而消除当天录制视频的多余音频。

　　比如说，当你录制孩子小时候的芭蕾舞表演时，周围或许会有人讨论或其他嘈杂声。但系统可以通过去混响技术去除这种多余的音频，仅保留孩子表演芭蕾舞时的所有相关声音，例如背景音乐。通过这种方式，全息体验的沉浸感将能大大增强。

　　3. VisualVoice

　　VisualVoice通过学习未标记视频中的视觉和听觉线索来实现视听语音分离，其学习方式类似于人们掌握新技能的方式(多模式)。

　　想象一下，你能够与来自世界各地的同事在元宇宙中参加一个小组会议，当你在虚拟空间中移动并加入较小的小组时，混响和声学会相应地调整。VisualVoice能够很好地应对各种场景的真实世界视频挑战。

　　更多关于上述AI模型的技术性信息请访问这个页面。

Meta研究员开发三种全新视听理解模型，提升AR/VR沉浸式视听体验

推荐文章