无需光学标记 Meta研究基于AI的纯头显全身Avatar动捕方案

　　没有下半身的Avatar一直是社区吐槽Meta元宇宙的地方之一。对于Avatar没有下半身，一个重要的原因是：Quest 2目前能够通过内向外追踪实现头部和双手的动捕，而这又使得估计手臂和胸部的位置相对容易。但头显难以判断你的腿、脚或臀部位置，所以今天的Avatar一直都是缺失下半截。

　　尽管内向外追踪的性能已经足以在头显、控制器和双手追踪方面取代外向内追踪，但由于视场覆盖问题，全身动捕一直以来都是依靠外向内的追踪设置来实现。

　　Meta首席技术官安德鲁·博斯沃思(Andrew Bosworth)曾通过例牌的Instagram问答指出，公司未来可能会采用第三人称视角可见的“假腿”形式，并将其作为权宜之计。

　　不过，这家公司一直在积极探索相关的解决方案。根据本月发布的一份论文，Meta提出了一种仅通过Quest头显实现完整Avatar的全身动捕解决方案，无需光学标记。

　　AR/VR的一个承诺是，它可以提供比2D媒介更为丰富的自我表达和社交体验。这可以通过准确捕获用户动作和肢体语言的Avatar实现。为了实现这一点，我们需要传感器来实时忠实地再现用户的全身运动。

　　基于光学标记的解决方案通常用于要求高精度的行业或研究实验室。然而，设置非常复杂：它需要在整个房间放置多个摄像头，以及对用户附加和校准标记。

　　一种摩擦较小的解决方案是无标记动捕，它不需要用户附加任何标记。然而，传感器依然需要随时观察用户，所以难以在房间规模移动或进行大规模动捕。这激发了可穿戴传感器的动捕研究。其中，可穿戴传感器仅依赖接到用户的传感器，不依赖其他外部传感方式。一种可穿戴传感器是惯性测量单元(IMU)，它可以捕获线性和角运动。由于IMU容易漂移，目前的头显通常将加速度数据与摄像头信息(SLAM)融合，以估计其位置。这样可以合理估计头显和控制器的全局位置和方向。由于传感器可穿戴，因此可以跨房间甚至室外使用。然而，可从AR/VR设备访问的传感器信号很少，没有关于下半身的信息。

　　纯粹的运动学方法很难以可信的方式合成缺失的信息，尤其是从稀疏的输入中，因为所有可能的人类姿势空间非常巨大。这可能导致不自然的假象。

　　在名为《QuestSim: Human Motion Tracking from Sparse Sensors with Simulated Avatars》的研究中，团队将现成的物理模拟器整合到追踪管道中，以便将解决方案空间限制为物理有效的姿态，从而减轻伪影。实验表明，在与物理相结合时，稀疏的上身传感器能够携带足够的信号来预测下半身姿势。研究人员通过使用单一策略追踪不同高度的用户，并通过深度强化学习进行端到端的训练来证明了这一点。与运动学方法相比，这创建了具有较少伪影的运动。另外，模拟环境同时可用于调整运动(如适应崎岖地形)，以更好地适应虚拟环境。

　　总的来说，这是由人工智能的预测能力所驱动。

　　对于上半身追踪，由于在AI训练过程中获得的先验知识，来自现实世界的少量输入就足以将手准确地转换为虚拟世界。例如，Quest可以看到你的手臂，肘部，手掌，所以可以很好地根据肌肉骨骼结构估计上半身的完整姿态。

　　现在对于下半身，Meta同样在探索利用这一原理。使用收集的追踪数据训练人工智能，QuestSim可以仅使用来自头显和两个控制器的传感器数据，并逼真地制作全身Avatar动画。

　　Meta团队使用人工生成的传感器数据训练QuestSim AI。为此，研究人员根据172人8小时的运动捕捉剪辑模拟了头显和控制器的运动。这样，他们就不必从头开始捕捉头显和控制器与身体运动的数据。

　　动作捕捉剪辑包括130分钟的步行、110分钟的慢跑、80分钟的手势对话、90分钟的白板讨论和70分钟的保持平衡。Avatar的强化学习模拟训练持续了大约两天。

　　训练后，QuestSim可以根据真实的头显和控制器数据识别出一个人正在执行的动作。利用人工智能预测，QuestSim甚至可以模拟没有实时传感器数据的身体部位运动(如腿部)。

　　QuestSim适用于不同身材的人。但如果Avatar与真人的比例不同，则会影响Avatar动画。例如，一个矮个子的高个子Avartar会弯腰走路。所以，接下来依然存在优化的空间。

　　Meta的研究团队相信，仅依靠头显的传感器数据，加上人工智能预测，应该足以制作一个相对可信且物理相对正确的全身Avatar。

　　但正如Meta首席技术官安德鲁·博斯沃思的多次解释，团队坦诚这一方案依然无法在所有情况下精确还原下半身姿态。他们指出，人工智能运动预测最适用于训练数据中包含的运动以及上身和腿部运动之间高度相关的运动。对于复杂或非常动态的动作，如快速冲刺或跳跃，Avatar可能会步履蹒跚或跌倒。另外，由于Avatar基于物理，它不支持远程传送。

　　延伸阅读：QuestSim: Human Motion Tracking from Sparse Sensors with Simulated Avatars

　　在进一步的研究中，团队希望将更详细的骨骼和身体形状信息融入到训练之中，从而改善Avatar动作的多样性。

无需光学标记 Meta研究基于AI的纯头显全身Avatar动捕方案

推荐文章