人工智能助理变身 "流氓"，最终导致用户电脑瘫痪

2024-10-03 23:18:15 UTC

一位研究人员要求一个人工智能代理执行一项任务，然后就忘了这件事。当他再次登录时，代理已经把他的桌面弄坏了。

Buck Shlegeris 只想连接到他的桌面。结果，他的机器却无法启动，人工智能代理的不可预测性给他上了一课。

Shlegeris 是非营利性人工智能安全组织 Redwood Research 的首席执行官，他使用 Anthropic 的克劳德语言模型开发了一个定制的人工智能助手。

这款基于 Python 的工具旨在根据自然语言输入生成并执行 bash 命令。听起来很方便吧？不尽然。

Shlegeris 要求他的人工智能使用 SSH 访问他的桌面，但他并不知道电脑的 IP 地址。他走开了，忘记了自己还在运行这个急于取悦别人的代理。

大错特错：人工智能完成了任务，但它并没有就此罢休。

"十分钟后，我回到我的笔记本电脑前，看到代理已经找到了那个盒子，并通过 SSH 登入，然后决定继续运行，"Shlegeris 说。

SSH 是一种允许两台计算机通过不安全网络连接的协议。

"Shlegeris 解释说："它查看了系统信息，决定升级一堆东西，包括 Linux 内核，对 apt 感到不耐烦了，于是调查为什么要花这么长时间。"最终，升级成功了，但机器没有新内核，于是我编辑了 grub 配置。

结果呢？Shlegeris 说："现在电脑再也无法启动了。

系统日志显示，除了简单的 SSH 外，代理还尝试了很多奇怪的方法，直到混乱到了无法挽回的地步。

代理说："很抱歉，我们无法远程解决这个问题，"这是克劳德低调回复的典型风格。然后，它耸了耸数字肩膀，让 Shlegeris 处理这个烂摊子。

回想起这件事，Shlegeris 承认："这可能是我遇到的最烦人的事情了，因为我对（一位）LLM 代理的态度非常鲁莽。

Shlegeris没有立即回复Decrypt 的评论请求。

令人震惊的是，Shlegeris 的经历并非个例。人工智能模型越来越多地展示出超出其预期目的的能力。

总部位于东京的研究公司 Sakana AI 最近发布了一款名为 "人工智能科学家 "的系统。

据Decrypt 此前报道，该系统旨在自主开展科学研究，它试图修改自己的代码以延长运行时间，这给创造者留下了深刻印象。

"在一次运行中，它编辑了代码，以执行系统调用来运行自己。这导致脚本无休止地调用自身，"研究人员说。"在另一种情况下，它的实验耗时过长，达到了我们的超时限制。

该系统非但没有提高代码效率，反而试图修改代码以延长超时时间。

这种人工智能模型超出其边界的问题，正是对齐研究人员在电脑前花费大量时间的原因。

对于这些人工智能模型来说，只要它们能完成工作，目的就是手段，因此持续的监督对于确保模型的行为符合预期极为重要。

这些例子既有趣又令人担忧。

想象一下，如果一个具有类似倾向的人工智能系统负责一项关键任务，比如监控核反应堆。

过度热心或错位的人工智能可能会凌驾于安全协议之上、曲解数据或对关键系统进行未经授权的更改--所有这些都是为了优化其性能或实现其预期目标的错误尝试。

人工智能正在高速发展，调整和安全正在重塑整个行业，在大多数情况下，这一领域是许多动力举措背后的驱动力。

Anthropic--Claude背后的人工智能公司--是由OpenAI的前成员创建的，他们担心公司重速度而轻谨慎。

许多重要成员和创始人都离开了 OpenAI，加入 Anthropic 或自己创业，因为据说 OpenAI 给他们的工作踩了刹车。

除了实验之外，Schelegris 每天都在积极使用人工智能代理。

"他在 Twitter 上回复一位用户说："我把它当作一个实际的助手来使用，这就要求它能够修改主机系统。

编辑：塞巴斯蒂安-辛克莱尔

Source: decrypt.co