科技魔方

自主操作计算机框架Self-Operating Computer:用GPT-4V来模拟人类的鼠标点击和键盘输入

大模型

2023年11月29日

  自动化技术的最新进展引人瞩目,其中一项引人注目的技术是Self-Operating Computer框架。这一框架采用了先进的GPT-4V模型,通过模拟人类的鼠标点击和键盘输入,实现了令人惊叹的自主操作。在演示中,我们看到了框架自动打开浏览器并访问Google Doc,然后开始撰写诗歌。

  Self-Operating Computer的核心能力在于基于给定的目标,估计鼠标点击的正确X和Y坐标位置,以及在每个步骤中进行适当的键盘输入。这一创新的框架旨在与任何视觉-文本多模态模型协同工作,以评估其操作计算机的能力。其使用GPT-4V的强大模拟功能使得计算机可以自主执行各种任务,展现了令人惊叹的智能水平。

  值得注意的是,目前Self-Operating Computer框架仅支持在Mac系统中使用。不过,对于有兴趣的用户,他们可以通过自行部署来体验这一引人入胜的技术。这种自主操作计算机的框架为用户提供了一个全新的可能性,使得计算机不再仅仅是被动执行任务的工具,而是能够根据预定目标主动进行操作。

  总体而言,Self-Operating Computer框架的出现标志着自动化领域的一次重大飞跃。通过结合先进的模型和多模态技术,该框架展示了计算机自主执行任务的新水平。

  尽管目前仅限于Mac系统,但随着技术的不断发展,相信将来会有更广泛的应用场景涌现。自主操作的计算机框架无疑将改变我们对计算机能力的认知,为未来的科技发展打开崭新的可能性。

+1

来源:站长之家

延展资讯