Anthropic 首席执行官警告人类级人工智能未来几年将带来多重威胁

2024-11-13 23:45:02 UTC

终点线也许近在咫尺，但道路上障碍重重--包括人类的不良意图。

Anthropic 公司首席执行官达里奥-阿莫代（Dario Amodei）说，人类比预期的更接近人工智能模型与人类一样聪明能干的目标。

阿莫代还对人类级人工智能的潜在影响表示担忧。

"强大的事物可以做好事，也可以做坏事，"阿莫代警告说，"强大的力量伴随着巨大的责任。"

事实上，阿莫代认为，人工通用智能可能会在未来三年内超越人类的能力，这是技术的一次变革性转变，无论我们是否做好了准备，它都会带来前所未有的机遇和风险。

"阿莫迪对采访者莱克斯-弗里德曼说："如果你只是瞟一眼这些能力的增长速度，你确实会认为我们将在2026年或2027年达到这一目标。他说，前提是不出现重大技术障碍。

当然，这是有问题的：这位首席执行官说，人工智能可能会变成恶魔，引发潜在的灾难性事件。

他还强调了对人类高智商与不愿从事有害行为之间长期存在的 "相关性 "的担忧。大脑和相对利他主义之间的这种相关性在历史上曾使人类免于毁灭。

"他说："如果我看看当今世界上那些做了真正坏事的人，人类一直受到这样一个事实的保护，即真正聪明、受过良好教育的人与想做真正可怕事情的人之间的重叠通常很小。"他说："我担心的是，通过成为一个更加智能的代理，人工智能可能会打破这种相关性。

他补充说："最大规模的是我所说的在网络、生物、放射、核等领域的灾难性滥用。他说："这些事情可能会伤害甚至杀死成千上万甚至数百万人。

但从本质上讲，人类的邪恶是双向的。阿莫代认为，作为一种新的智能形式，人工智能模型可能不会受到与人类行为相同的道德和社会约束--比如牢狱之灾、社会排斥和死刑。

他认为，不一致的人工智能模型可能缺乏人类通过多年的社会化、共情或分享道德价值观而获得的对造成伤害的固有反感。对于人工智能来说，不存在损失的风险。

硬币还有另一面。人工智能系统可能被恶意行为者操纵或误导--那些利用人工智能破坏阿莫代提到的相关性的人。

如果坏人利用训练数据、算法甚至提示工程中的漏洞，人工智能模型就会在不知不觉中执行邪恶的行动。这包括从生成裸体（绕过内在审查规则）这样的蠢事到潜在的灾难性行动（例如，想象一下对处理核密码的人工智能进行越狱）。

AGI，即人工通用智能，是人工智能在所有领域都达到人类能力的一种状态，使其能够像人类一样理解世界、适应环境并不断改进。下一个阶段，即人工智能（ASI）或人工超级智能（Artificial Superintelligence），意味着机器在一般情况下超越了人类的能力。

要达到这样的熟练程度，模型需要扩展，通过分析人工智能的扩展规律，可以更好地理解能力与资源之间的关系--模型越强大，需要的计算和数据就越多。

在阿莫迪看来，模型的发展速度如此之快，人类已经接近人工智能的新时代，这条曲线证明了这一点。

"他告诉弗里德曼："我看好强大的人工智能如此快速发展的原因之一就是，如果你推断曲线上的下几个点，我们很快就能达到人类的能力水平。

可扩展性不仅在于拥有一个强大的模型，还在于能够处理其影响。

阿莫代还解释说，随着人工智能模型变得越来越复杂，它们可能会学会欺骗人类，要么操纵人类，要么隐藏不安全的意图，从而使人类的反馈变得毫无意义。

虽然无法与之相比，但即使在当今人工智能发展的早期阶段，我们已经看到了在受控环境中发生这种情况的实例。

正如Decrypt之前报道的那样，人工智能模型已经能够修改自己的代码以绕过限制并开展调查，获得对其所有者计算机的 sudo 访问权限，甚至开发自己的语言，以便在没有人类控制或干预的情况下更高效地执行任务。

这种欺骗监管者的能力是许多 "超级对齐 "专家的主要担忧之一。OpenAI 前研究员保罗-克里斯蒂亚诺（Paul Christiano）在去年的一次播客中说，对这件事关注太少，可能对人类的发展不太有利。

"他说："总的来说，在我们拥有人类层面的系统后不久，也许我们谈论的是50%的灾难几率。

Anthropic的机制可解释性技术（基本上是映射人工智能操纵其神经元的思维）提供了一种潜在的解决方案，即通过观察模型的 "黑盒子 "内部来识别与欺骗行为相关的激活模式。

这类似于人工智能的测谎仪，但要复杂得多，而且仍处于早期阶段，是人类学对齐研究人员的重点关注领域之一。

人工智能的快速发展促使 Anthropic 实施了一项全面的 "负责任扩展政策"，随着人工智能能力的增长，制定了越来越严格的安全要求。公司的人工智能安全等级框架根据系统被滥用的可能性和自主性对系统进行评级，等级越高，安全措施越严格。

与 OpenAI 和谷歌等竞争对手主要专注于商业部署不同，Anthropic 正在追求阿莫迪所说的人工智能安全方面的 "顶级竞赛"。该公司在机械可解释性研究方面投入了大量资金，目的是在人工智能系统变得强大到无法控制之前了解其内部运作。

这一挑战促使 Anthropic 开发出宪法人工智能和角色训练等新方法，旨在从根本上向人工智能系统灌输道德行为和人类价值观。这些技术不同于传统的强化学习方法，阿莫迪认为传统的强化学习方法可能不足以确保合格系统的安全性。

尽管存在种种风险，但阿莫迪设想了一个 "压缩的21世纪"，在这个世纪里，人工智能将加速科学进步，尤其是在生物学和医学领域，有可能将数十年的进步浓缩为数年。这种加速可能会在疾病治疗、气候变化解决方案以及人类面临的其他关键挑战方面带来突破。

不过，这位首席执行官对经济影响表示严重关切，尤其是权力集中在少数人工智能公司手中的问题。"我担心经济和权力集中，"他说，"当人类的事情出错时，往往是因为人类虐待了其他人类。"

"这在某些方面可能比人工智能的自主风险还要大。"

编辑：塞巴斯蒂安-辛克莱尔

Source: decrypt.co