微软AI研究提出AI模型HMD-NeMo：可基于部分手部动作准确生成全身动作

　　在混合现实场景中，生成准确和真实的全身虚拟角色动作一直是一个持久性的挑战。传统解决方案通常使用头戴式设备(HMDs)，依赖有限的输入信号，如头部和手部的6自由度(DoF)。然而，最近的进展在从头部和手部信号生成全身动作方面取得了令人印象深刻的表现。然而，它们普遍存在一个共同的限制，即假设手部完全可见。这一假设在手部跟踪依赖于自我中心传感器的情况下成立，由于HMD的有限视野，导致手部部分可见。

　　来自微软Mixed Reality & AI Lab的研究人员引入了一种创新的方法 - HMD-NeMo(HMD神经运动模型)。这一统一的神经网络能够在手部仅部分可见的情况下生成真实和准确的全身动作。HMD-NeMo实时在线运行，适用于动态混合现实场景。

　　HMD-NeMo的核心是一种时空编码器，具有新颖的可调节时间蒙版令牌(TAMT)。这些令牌在没有手部观测的情况下鼓励生成真实的动作。该方法采用循环神经网络高效捕捉时间信息，并使用变压器模型复杂地建模不同输入信号组件之间的关系。

　　研究纸提出了两种评估场景:Motion Controllers(MC)，其中使用运动控制器跟踪手部，和Hand Tracking(HT)，其中使用自我中心手部跟踪传感器跟踪手部。结果表明，HMD-NeMo是第一种能够在统一框架内处理这两种情况的方法。在HT场景中，即使手部可能完全或部分不在视野中，可调节时间蒙版token在维持时间连贯性方面表现出色。

　　该方法使用损失函数进行训练，考虑数据准确性、平滑度以及在SE(3)中进行人体姿势重建的辅助任务。实验证明了HMD-NeMo在AMASS数据集上的出色性能，该数据集包含转换为3D人体网格的大量人体运动序列。采用关节位置误差(MPJPE)和关节速度误差(MPJVE)等指标评估HMD-NeMo的性能。

　　与运动控制场景中的最先进方法进行比较显示，HMD-NeMo实现了更高的准确性和更平滑的动作生成。此外，通过跨数据集的评估，证明了该模型的泛化能力，在多个数据集上优于现有方法。

　　深入研究了不同组件的影响，包括TAMT模块在处理缺失手部观测方面的有效性。研究表明，HMD-NeMo的设计选择，如时空编码器，对其成功起到了重要作用。

　　HMD-NeMo在解决混合现实场景中生成全身虚拟角色动作的挑战方面迈出了重要的一步。其在处理运动控制和手部跟踪等多种场景中的多功能性，以及出色的性能指标，使其成为该领域的开创性解决方案。