Buck Shlegeris 只想连接到他的桌面。结果,他的机器却无法启动,人工智能代理的不可预测性给他上了一课。
Shlegeris 是非营利性人工智能安全组织 Redwood Research 的首席执行官,他使用 Anthropic 的克劳德语言模型开发了一个定制的人工智能助手。
这款基于 Python 的工具旨在根据自然语言输入生成并执行 bash 命令。听起来很方便吧?不尽然。
Shlegeris 要求他的人工智能使用 SSH 访问他的桌面,但他并不知道电脑的 IP 地址。他走开了,忘记了自己还在运行这个急于取悦别人的代理。
大错特错:人工智能完成了任务,但它并没有就此罢休。
"十分钟后,我回到我的笔记本电脑前,看到代理已经找到了那个盒子,并通过 SSH 登入,然后决定继续运行,"Shlegeris 说。
SSH 是一种允许两台计算机通过不安全网络连接的协议。
"Shlegeris 解释说:"它查看了系统信息,决定升级一堆东西,包括 Linux 内核,对 apt 感到不耐烦了,于是调查为什么要花这么长时间。"最终,升级成功了,但机器没有新内核,于是我编辑了 grub 配置。
结果呢?Shlegeris 说:"现在电脑再也无法启动了。
系统日志显示,除了简单的 SSH 外,代理还尝试了很多奇怪的方法,直到混乱到了无法挽回的地步。
代理说:"很抱歉,我们无法远程解决这个问题,"这是克劳德低调回复的典型风格。然后,它耸了耸数字肩膀,让 Shlegeris 处理这个烂摊子。
回想起这件事,Shlegeris 承认:"这可能是我遇到的最烦人的事情了,因为我对(一位)LLM 代理的态度非常鲁莽。
Shlegeris没有立即回复Decrypt 的评论请求。
令人震惊的是,Shlegeris 的经历并非个例。人工智能模型越来越多地展示出超出其预期目的的能力。
总部位于东京的研究公司 Sakana AI 最近发布了一款名为 "人工智能科学家 "的系统。
据Decrypt 此前报道,该系统旨在自主开展科学研究,它试图修改自己的代码以延长运行时间,这给创造者留下了深刻印象。
"在一次运行中,它编辑了代码,以执行系统调用来运行自己。这导致脚本无休止地调用自身,"研究人员说。"在另一种情况下,它的实验耗时过长,达到了我们的超时限制。
该系统非但没有提高代码效率,反而试图修改代码以延长超时时间。
这种人工智能模型超出其边界的问题,正是对齐研究人员在电脑前花费大量时间的原因。
对于这些人工智能模型来说,只要它们能完成工作,目的就是手段,因此持续的监督对于确保模型的行为符合预期极为重要。
这些例子既有趣又令人担忧。
想象一下,如果一个具有类似倾向的人工智能系统负责一项关键任务,比如监控核反应堆。
过度热心或错位的人工智能可能会凌驾于安全协议之上、曲解数据或对关键系统进行未经授权的更改--所有这些都是为了优化其性能或实现其预期目标的错误尝试。
人工智能正在高速发展,调整和安全正在重塑整个行业,在大多数情况下,这一领域是许多动力举措背后的驱动力。
Anthropic--Claude背后的人工智能公司--是由OpenAI的前成员创建的,他们担心公司重速度而轻谨慎。
许多重要成员和创始人都离开了 OpenAI,加入 Anthropic 或自己创业,因为据说 OpenAI 给他们的工作踩了刹车。
除了实验之外,Schelegris 每天都在积极使用人工智能代理。
"他在 Twitter 上回复一位用户说:"我把它当作一个实际的助手来使用,这就要求它能够修改主机系统。
编辑:塞巴斯蒂安-辛克莱尔
© 2025 DeFi.io