Reddit 用户首先发现了这一点--克劳德突然变得更敏锐、更能干了。现在我们知道原因了:Anthropic 对其人工智能模型进行了重大升级,包括增强版 Claude 3.5 Sonnet 和轻量级 Haiku 模型的必要升级。
最可怕的升级这些人工智能现在可以实际控制计算机,像人类一样移动光标、滚动页面,甚至点击按钮。
在一段视频演示中,Anthropic 公司的研究员萨姆-林格(Sam Ringer)展示了克劳德如何通过滚动电子表格来填写外部网站上的表格,如何在分析公司的客户关系管理(CRM)后搜索公司信息,以及如何理解并填写表格中的字段。
"如今,开发人员可以通过 API,指导克劳德像人一样使用计算机,如看屏幕、移动光标、点击按钮和输入文本。Claude 3.5 Sonnet 是首个提供计算机使用功能的前沿人工智能模型,"Anthropic 在今天早些时候的官方公告中说。"我们提前发布了计算机使用功能,以征求开发者的反馈意见,并希望随着时间的推移,该功能能够得到快速提升。
Anthropic(或许是它的某个按键式人工智能? Jk.)似乎在发布公告之前就已经发布了模型。几个小时以来,克劳德和 Anthropic 的子论坛上充斥着许多人,他们想知道到底发生了什么,因为他们的人工智能做得如此出色:用户报告说,它变得更快、更准确了,而且令人惊讶的是,它不再经常道歉了。
"克劳德回来了,好多了。NextGenAIUser 在 Reddit 上发帖说:"它让你明白了,它的反应就像真正理解了你的意图,而不是死气沉沉的回应。"在使用 o1-Mini 和 o1-Preview 处理一个编码问题时被卡住了几个小时,输出的响应越来越差。Roth_Skyfire 在另一条评论中说:"用完全相同的提示将问题发送给 Claude,它就能一击即中,没有任何问题。
他们是对的。Anthropic 报告说,经过改进后,Claude 3.5 Sonnet 的编码能力在 SWE-bench 验证测试中从 33.4% 上升到 49%,击败了 OpenAI 的 o1-preview 等竞争对手。这不仅仅是微小的提升。Anthropic 报告的每一项基准测试都表明,新款 Claude 3.5 Sonnet 比原来的型号要好得多。
但真正有趣的地方就在这里。升级后的 Sonnet 不仅更智能,现在还能控制你的电脑。Anthropic 称这项新功能为 "电脑使用",目前处于公开测试阶段。它的工作原理是,你可以让克劳德访问你的桌面,并执行一项任务。然后,人工智能就会开始像人类一样通过远程桌面使用你的电脑--像人类一样移动光标、点击按钮、输入命令、填写表格和文本字段。
不过,这项功能只能通过应用程序接口(API)实现,因此最终用户在短期内还无法体验到。
Anthropic 对克劳德进行了训练,使其能直观地解读屏幕上发生的一切。开发人员可以指示它执行填写表格、浏览网站甚至使用软件应用程序等任务。这有点像让人工智能坐在电脑前为你工作,只不过它不会感到疲倦,而且(希望)不会像我们人类那样经常犯错。
该功能还处于测试阶段,因为它在一些基本操作上还存在问题--滚动和缩放都会给它带来麻烦。这就是 Anthropic 密切关注一切的原因,它将截图保存至少 30 天,并进行安全检查以捕捉任何可疑行为。
公司的偏执是有根据的。几个月前,微软推出了一项名为 "Recall "的功能,可以让 Copilot+ 对用户的电脑进行截图,从而让人工智能提供更多帮助和相关性。这项功能引起了很大反响,以至于在 Copilot+ Recall 功能被认定为 "间谍软件 "后,微软不得不推迟其计划--有关部门也开始对其进行调查。
但 Anthropic 是由一群好人组成的,他们承诺自己与众不同。"研究团队说:"我们发现,更新后的克劳德 3.5 Sonnet,包括其新的计算机使用技能,仍然处于人工智能安全等级 2 级,也就是说,它并不需要比我们目前已有的安全和安保措施更高的标准。
Replit等公司已经在整合克劳德的计算机使用功能,以帮助实现应用程序评估的自动化,而浏览器公司正在测试其简化基于网络的工作流程的能力。这些早期采用者正在探索如何让克劳德处理通常需要几十甚至上百个人工步骤的任务。
此外,Anthropic 的经济型 Claude 3.5 Haiku 现在与以前的旗舰型号 Claude 3 Opus 一样强大。不过,该机型的运行成本仅为前者的一小部分,延迟时间也更短,因此在不牺牲太多性能的情况下更易于使用。
Claude 3.5 Haiku 在编码任务和工具使用方面尤为出色,SWE-bench 验证得分高达 40.6%。这使它领先于市场上一些更昂贵的机型,这意味着预算有限的开发人员不必在质量上妥协。
Claude 3.5 Haiku 将于 11 月上市。
© 2025 DeFi.io