科技魔方

Mobile-Agent: 具有视觉感知 可以像人类样操作手机的自主多模态AI代理

更多动态

2024年02月01日

  Mobile-Agent是一款具有视觉感知的自主多模式移动设备代理,由北京交通大学联合阿里巴巴团队共同开发。简单的说,Mobile-Agent相当于一个可以模拟人类操作手机的自主多模态AI代理。

image.png

  该代理采用纯视觉解决方案,独立于XML和系统元数据,不需要任何系统代码,完全通过分析图像来理解和操作手机。 它能够自动完成各种任务,比如可以在淘宝加购物车车,在APP播放音乐,自主使用导航APP,收发邮件等等。

  Mobile-Agent的主要特点包括操作范围不受限制,多应用操作,以及采用纯视觉解决方案。其无需探索和培训,用户可随时使用。项目团队通过 Mobile-Eval 进行了性能评估,包括10个主流单应用场景和1个多应用场景,为用户提供了详细的评估结果。该评估覆盖了阿里巴巴、亚马逊音乐、谷歌地图等10个应用场景,以及一个多应用场景。

  每个场景设计了三个不同难度的指令,以评估 Mobile-Agent 在各种任务下的表现,具体如下

  MobileAgent的特点包括依赖于纯视觉解决方案、独立于XML和系统元数据、具备多种视觉感知工具进行操作定位、无需探索和训练即插即用。其工作原理涵盖视觉感知工具、自主任务规划和执行、自反思等关键模块,使其能够准确识别和操作手机屏幕上的各种元素。团队宣布即将发布移动代理的演示视频,展示其在实际操作中的性能和应用场景。

+1

来源:站长之家

延展资讯