科技魔方

HoloLens联合发明人Avi Bar-Zeev分享:通往全天候AR眼镜的道路

AR/VR

2022年08月15日

  全天候AR眼镜是行业正在追逐的一个目标,诸如苹果、Meta和微软等科技巨头都在积极进行探索布局。但显然,前方的挑战众多。日前,在XR领域有着30多年经验,并且是微软HoloLens联合发明人之一的艾维·巴兹夫(Avi Bar-Zeev)就撰文介绍了通往全天候AR眼镜的道路:

  通往全天候XR眼镜之路

  30多年来,我一直致力于XR、元宇宙和空间计算方面的工作,包括为10个不同的XR头显项目提供过协助或建议。我非常有幸地在早期就为一系列的项目做出了贡献,而大多数情况下都是通过证明或否定需求,并在团队花费10亿美元构建它们之前定义关键用户体验。在这个过程中,我学到了关于什么是有效的,什么又是无效的经验教训。有时候,正确的答案是“尚未成熟”。

  我不会披露过往雇主依然认为是专有的任何信息。我将提供关于已发布专利的链接,而它们可以为我们提供一定的见解洞察。这就是专利的实际目的,信不信由你。当然,我会避免我认为会引起猜测的专利。

  需要注意的是,不要把我说的或写的任何话语当作任何公司产品计划的证据,甚至是对任何人努力的任何批评。这根本不是我的本意。

  作为背景,我建造的第一个真正的XR体验是一个CAVE。当时我借了25万美元的电脑和巨型投影仪,又投入了3万美元购买原材料。迪士尼在90年代出品,且价值10万美元的VR头显从未投入商业市场。它需要天花板吊下的线缆来承载重量,但有几十万人尝试过。

  到2010年1月,我希望我们已经准备好开始研发可用的消费者XR眼镜。是时候在这个发展缓慢的领域大显身手了。另外,Google Glass和Magic Leap在同一时间冒头。幸运的是,我们在微软孵化团队接到的一个任务是为下一代XBox寻找新的构想。

  Xbox高管当时表示:“激进点,甚至是令我们说出‘真是疯了’的话。”

  我当然有“激进”的想法。我们的小团队很快就开始研究一种新的产品概念“Screen Zero”:用一个屏幕来代替所有屏幕。我负责技术探索,并在第一个形成年帮助定义了体验。我离开的理由不值得在本文中留下篇幅。但经过一千多人的努力,HoloLens于2016年推出。

  这是开创性的设备。但它依然不是一款全天候的消费者可穿戴设备。今天的Magic Leap 2、Snap Spectacles、Varjo或Quest都不是。

  所以,实现全天可佩戴的AR眼镜到底需要什么?

  1. 极多主义与极简主义

  与HoloLens最终采用的方法一样,极多主义方法是指将大量传感器、算法和电源整合到一个高端系统中。当我们确定了工程和用户体验,理论上我们可以缩小它。但这需要更多的时间,特定电子产品光是在优化功率方面就需要长达十年的时间。

  Cambria和类似的设备同样采用了极多主义,以至于他们通过巨大的不透明VR显示器和多个摄像头来模拟AR,并对现实和模拟的混合进行精确的逐像素控制。极多主义最适合高端应用和核心研发。有人认为,即便应用更具工业性,它们都是目前唯一有效的工具。

  然而,即使是当今市场最昂贵的设备都不能实现全天佩戴,并且不能用于普通的社交互动,甚至不能在街道安全行走。诸如全息或光场显示器等极多主义功能则尚未成熟。

  另一方面,采用极简主义方法的设备包括亚马逊Echo Frames、Snap Spectacles和Ray-Ban Stories等等。它们只打包符合可穿戴眼镜形态当前限制的技术,通常会完全放弃显示器。

  不过,没有显示器的眼镜可以算是XR吗?

  如果它能够增强一个人的情景视角,我会说是的。播客或音乐组合不是XR,因为它依然无法感知到你或你当前的环境。GPS导航应用有一点符合,但并不足够。为人工智能和精确定位添加空间音频和摄像头肯定能算XR,即便没有显示器。

  极简主义方法可以在短期内卖出更多的产品,它们通常专注于特定方面并将其打造成一流解决方案。如果能够做好,就像随身听和iPhone一样,你可以卖出数十亿美元。但不要认为极简主义容易,因为从很多方面来说,要做好很难。

  2. 最优方法

  我原本希望XBox的Screen Zero是极简主义眼镜和极多主义控制台的混合体。AR眼镜的大小应类似于Oakley眼镜或更小。下一主机将为同一个房间内的最多四副眼镜承担大多数的繁重工作。

  3. 人体工学、能耗和热量

  为什么要分开呢?归根结底是能耗,或者更准确地说:热量。

  计算机的所有工作最终都以热量的形式结束,其他或许包括光子和/或机械驱动,比如声音。多少热量?一副轻量级AR眼镜可以产生大约一瓦特的能量。

  典型的智能手机可以产生大约10瓦,然后发热。一台主机或PC可以比智能手机多消耗10倍-100倍的能量,因此比眼镜多消耗100倍-1000倍的能量。想想小小的LED手电筒和巨大的干衣机。这是能耗方面的巨大差异。

  为了平衡能耗,我们需要类似于我从2010年开始研究的解决方案,例如数据融合、分割渲染、优化渲染流。对于较低的带宽,基于眼动追踪的时间扭曲渲染效果很好,并且能覆盖通信延迟。

  CPU、摄像头、显示器和RAM消耗巨大的能量,并产生非常多的热量。所以,秘诀是在大多数情况下都减少使用它们。想想低功耗的定制硬件:新型的情景传感器、超低功耗显示器,以及可以巧妙“唤醒”的算法。

  这需要时间解决。例如,如果你的光学鼠标和主机控制器不待机,它们的电池就会耗尽,所以它们最开始都是采用系留方案。今天,一个光学鼠标可以依靠一枚小电池撑几个月。

  4. 客厅之外

  为了广泛支持各种用例,光学透明AR系统需要理想地阻挡来自明亮环境的光线(甚至是窗户或客厅的照明),更好地个性化并将空间音频与现实混合,调整光学焦点,捕获和再现他人的虚拟全息图等等。

  即便将设备分为主机和耳机,我们的头上依然会有太多“东西”。一个巨大的人体工学挑战是摆脱大多数XR设备依然使用的、令头显看起来像是抱脸虫的巨大束带。

  任何一种要求拉紧的束带都会限制用户群的多样性(考虑头的大小变化和弄乱头发的敏感性),并且这会降低穿戴眼镜的可能性。这意味着全天候设备必须超轻,并且通常与普通眼镜一样合身。

  达到Oakley眼镜大小或更小的眼镜通常意味着将系统的更多部分移动到夹包或遥控器之中。Magic Leap提供了这样一个夹包。我注意到有XR设备采用颈带式设置,亦即将计算组件挂在消费者的脖子。对于这种分体式设计,分开的工作越多,眼戴/头戴组件就能越轻。

  2010年,我个人对二头肌更感兴趣,因为它是一个锚定点,如果需要,可以接一条短线。这可以令较重和较热的组件远离头部和颈部,并具有大量表面积来散热。位于手臂的生物传感器同时可以检测手势,类似于Meta使用Control+Labs设备从手腕读取手势的方式。对于这种方式,产品设计师依然可以说“没有线缆”。

  5. 焦点

  因为大量的成年人需要矫正远近视力,所以一个全天可穿戴的形状参数通常需要为我们放大和聚焦真实世界。至少,这意味着镜片需要支持定制的视力参数光学元件。Snap收购的一家波导公司早前宣布,计划将相关的光学元件嵌入功能性视力镜片之中,但这相当困难。

  但一个视力参数就足够了吗?不少成年人只在阅读或驾驶(远视)时需要眼镜,这意味着他们需要眼镜能够切换成不同的状态。所以,我们需要两副或三副昂贵的眼镜吗?或者双焦点,三焦点,根据你看的地方不同而相应地弯曲光线?(实用,但不理想)

  我推动的一个方案是动态光学调整,允许同一副眼镜可以支持阅读或驾驶,甚至可以放大精细印刷品和远方标志。这同时可以允许更多朋友轻松尝试。想象一下,如果你的XBox只支持单人游戏,而房间里又有两三位朋友?挺扫兴的吧。

  目前最好的动态聚焦方法包括Alvarez(机械滑动)和充液可调透镜。机械解决方案往往会降低可靠性。有相当多的研发投入到堆叠特殊LCD并以电子方式改变焦点。Mega收购了一家公司来负责这个任务。

  然后还有一个问题,就是基于当前视线聚焦虚拟图像。Avegant和Magic Leap向我们展示了如何在两个焦距之间快速切换,从而模拟简单的光场显示,这对于臂展范围内以适当的焦距浏览“虚拟对象”非常重要。我之前研究过几种连续扫描焦距的方法,但商业显示器在实践中不够快。

  追踪你的眼睛可以为处理提供帮助,减少计算负载,并提供更自然的用户输入。我非常熟悉眼动追踪问题,并在早期提醒决策者注意风险。

  最后,在商业方面,Luxottica通过销售低成本高标价的眼镜而获利丰厚。它主宰着当今的市场,以及你所知道的大多数眼镜品牌。XR眼镜公司必须与他们合作或与他们对抗,这两种选择都不容易。Meta选择与他们合作开发雷朋眼镜。这家公司的竞争对手包括Warby Parke和其他小玩家。没有好的分销渠道和合作伙伴,你就无法销售好的新品。

  6. 对比度

  Magic Leap 2提供了一种选择性模糊自然世界的方法。我从2010年开始研究这个问题,但现在依然没有完美的解决方案。一系列的光学工程师都不认为这是必要项。原因如下:

  人们普遍理解为什么透明的“加法”显示器不能呈现“黑色”。黑色的RGB=0,0,0,这实际上没有添加任何内容,并且在现有光线下不可见。然而,我们可以很容易地通过接近较亮的区域来欺骗你感知黑色和阴影。

  当你把你的XR眼镜带到户外,看着一堵被明媚阳光照射的墙壁时,真正困难的问题就会出现,可能是在黑暗或阴影区域附近。特定区域的亮度可能是其他区域的1000到10000倍。对比度在室内非常显著,以至于AR的视觉效果看起来非常可怕。光学工程师经常争辩说,要想克服这一问题,你就需要输出更多的光。他们的光学系统通常只有1%-10%的效率,这意味着大多数光甚至无法进入你的眼睛,并且只是增加了更多的热量。回忆一下,你不能仅仅围绕光学设计一个系统,因为热量是最大的限制因素之一。

  现实情况是,任何一副透明AR或视频透视眼镜在进行视觉增强时都需要考虑真实场景。在透明的情况下,眼镜通常需要减去真实照明以获得所需的最终颜色。在视频透视的情况下,显示器可以替换整个像素,但虚拟3D场景中的任何透明度依然需要将其与从摄像头读取的背景颜色混合。所以你基本上看到的是高能耗的摄像头和电路,要么是透明的,要么是不透明的。这是一个巨大的设计约束,因为它增加了能耗和重量,同时遮挡了眼睛。

  表面上看,用透明眼镜选择性遮光比增加显示功率或增加摄像头成本更低。2010年,我在波导前面放置了一个简单的单色LCD。它可以按预期工作,能够以柔和的黑色轮廓渲染三维实体对象。但它有缺点,包括需要动态校准,LCD会扭曲真实光线(主要是控制线的折射)。它本身的动态范围很差。在室外,有时你需要接近100%的不透明度。在室内,尤其是在社交场合和远程临场感中,你希望更透明,以直接看到人们的眼睛。

  针对这种方法的主要反对意见是,LCD或其他空间光调制器通常离焦,距离眼睛只有一英寸。但畸变如此,只要有适当的加、减透明AR显示屏和一定的快速低功耗传感器,你的太阳眼镜就可以遮挡阳光、强光或大灯,而不会令其他地方的视线变暗。你可以巧妙地将世界变暗,令推荐的书看起来闪闪发光。通过更先进的减法(过滤),眼镜甚至可以为世界重新着色,增强夜视,甚至在你感到不安或注意力不集中时提供生物特征反馈。

  我制作了各种演示内容,并花费了很长时间来寻找更好的方法。但它们都有一定的缺点。不过,Magic Leap 2的实现给了我希望,核心问题将能得到解决。

  7. 网络

  无线电同样需要能量,所以在分体式系统中总是有一个权衡。最有希望的未来在于使用更高端的无线电频率来实现比今天更低的功率和更高的带宽。但主要的挑战是这种频率无法穿过皮肤或墙壁(无论好坏)。所以,解决方案需要非常聪明,因为无线电波在房间和人周围反弹和形成波束,所以可能需要使用比今天更多的发射器。显然,这增加了成本和复杂性。

  对于全天可穿戴的情况,它同时要求在销售依赖网络的产品之前先提供网络。这种限制是企业从未发布我所提倡的分割渲染解决方案的最大原因。5G更接近我们的需求,但至少在美国,这主要解决了延迟较低以及更多人同时使用网络的问题。我们需要的不仅仅是5G,但这是一个好的开端。

  为了摆脱房间里原有的“主机”(或类似设备),同时保持小巧轻便的外形,我们需要一种“边缘”计算的方式,并以一种不侵犯我们隐私的方式结合在一起。对于任何人来说,将其生物特征传感器数据发送到任何边缘或云解决方案都非常令人担忧,因为它很容易被滥用利用。

  8. 摄像头

  把摄像头放到眼镜是一个棘手的问题。Google Glass在社会接受度方面犯了诸多错误,并遭受了普遍攻击。但Snap似乎这方面的问题很少。与此同时,Facebook一直致力于全面采集每个人的生活细节,想必是为了提供更个性化的广告,无论我们是否愿意。

  特定摄像头的耗能很大,例如3D场景数字化,以及对人或物体进行数字遮挡。为了正确放置3D图形,你需要在空间连续追踪头部,而摄像头依然是领先的解决方案。通过利用IMU传感器,我们正在提升能耗。

  拍照片或视频是一种相当流行的用例,尤其是如果它比其他设备更自然、更方便。然而,由于尺寸和功率的限制,照片的质量将低于典型的智能手机。在镜框提供一盏小白灯不足以解决复杂的社会认可问题。

  场景理解更容易想象为带摄像头眼镜的一个主要功能,部分原因是它不必拍摄其他人的照片,更重要的是它为全天佩戴眼镜打开了最重要的新用例:情景理解。

  9. 体验

  在2010年,我最希望展开的研发是支持强大眼动追踪和身体追踪功能的AR眼镜,探索更自然的空间计算用户界面,从而超越PC和鼠标这种传统的“矩形中的矩形”。尽管硬件肯定有其局限性,但XR的广泛普及需要有人解决这个体验性问题,即在未来“如何”进行交互?“盒子里的3D盒子”显然不是。所以我们还有很多工作要做。

  尽管Meta正在将他们的VR重点放在通过所谓“视觉图灵测试”,但全天可穿戴的XR眼镜需要比其他眼镜更有用。许多人想象AR层或通道渗透到我们的现实中,标记我们看到的一切,添加信息,用3D讲述空间故事,并重新绘制世界。尽管这很可能是按需提供,但那并不是我所期望的日常体验。

  大多数情况下,人们希望改进他们经常做的事情:交流、导航、发现我们周围的世界、理解甚至改变某个地方、购物、体验内容和通过工作赚钱。为了取得成功,XR眼镜需要比我们在智能手机或其他设备做得更好。

  以下是智能手机所无法做到的事情。想象一下,一副外观正常的眼镜可以动态地调整焦距并选择性地遮挡光线。它们可以主动地、隐私地与你交谈,无需你键入文本或口头询问。仅这一项就将是一个价值十亿美元的产品。这种眼镜可以帮助你记忆事项,或者作为你日常体验的一部分提供值得信赖的推荐(与推送广告相比)。

  我在这方面做的最重要研究是,使用非视觉XR眼镜进行异步通信。在今天,智能手机的语音和文字功能已经足够好,但它们知道你什么时候在努力集中注意力吗?它们能帮助你在正确的时间切换情景,以保持工作或娱乐的流畅性吗?这就是所述眼镜可以发光发热的地方(假设我们可以信任制造商)。

  我所描述的一切都非常难,相关技术几乎尚不存在。它还没有走上极简主义的轨道,但那是因为我们还没有将其优先于光学器件的小型化和视场的最大化。但如果你询问这样一个问题:什么样的XR眼镜可以在别人没有成功的地方取得成功?我依然认为我上面列出的一切会帮助你打造出一款优秀的产品。

+1

来源:映维网

推荐文章