让AI直接操作电脑,完成一次点击需消耗50万个Token
智能体利用计算机视觉来操作个人电脑,它们通常会对桌面进行截图或录制视频,理解它们所“看到”的内容,然后在获得点击、打字和滚动权限的前提下采取相应的行动。AI 编程初创公司 Reflex 认为,实现这一 2026-5-7 15:33:1 Author: blog.upx8.com(查看原文) 阅读量:17 收藏

智能体利用计算机视觉来操作个人电脑,它们通常会对桌面进行截图或录制视频,理解它们所“看到”的内容,然后在获得点击、打字和滚动权限的前提下采取相应的行动。

AI 编程初创公司 Reflex 认为,实现这一目标所需的工作量绝非易事。该公司最近发布的研究声称,一个操作浏览器的视觉智能体需要消耗高达 50 万个 Token 才能完成一次下拉菜单的点击。该研究得出结论:使用智能体的成本可能比直接使用 API 高出 45 倍。

该公司已将其基准测试工具发布在 GitHub 上,您可以自行测试其方法,看看是否会得出相同的结果。更强大的 AI 模型最终会降低这些成本。但与使用 API 相比,使用智能体来完成某项任务始终需要经历更多的步骤。

—— The Register


文章来源: https://blog.upx8.com/%E8%AE%A9AI%E7%9B%B4%E6%8E%A5%E6%93%8D%E4%BD%9C%E7%94%B5%E8%84%91-%E5%AE%8C%E6%88%90%E4%B8%80%E6%AC%A1%E7%82%B9%E5%87%BB%E9%9C%80%E6%B6%88%E8%80%9750%E4%B8%87%E4%B8%AAToken
如有侵权请联系:admin#unsafe.sh