人工智能公司Anthropic于8月8日宣布推出一项扩大的漏洞悬赏计划,对能够 "越狱 "该公司尚未发布的 "下一代 "人工智能模型的参与者给予高达1.5万美元的奖励。
Anthropic 的旗舰人工智能模型 Claude-3 是一个生成式人工智能系统,类似于 OpenAI 的 ChatGPT 和谷歌的 Gemini。为了确保克劳德及其他模型能够安全运行,公司进行了所谓的 "红队测试"。
红色团队基本上就是故意弄坏一些东西。在克劳德的案例中,红队的目的是试图找出所有可能促使、强迫或以其他方式干扰它产生不需要的输出的方法。
在 "红队 "工作中,工程师可能会改变问题的措辞或重构查询,以诱使人工智能输出其程序所避免的信息。
例如,根据从互联网上收集的数据进行训练的人工智能系统很可能包含许多人的个人身份信息。作为其安全政策的一部分,Anthropic 设置了防护栏,以防止克劳德及其他模型输出此类信息。
随着人工智能模型变得越来越强大,并能够模仿人类交流,试图找出每一种可能的不需要的输出的任务就变得极具挑战性。
Anthropic 已在其模型中实施了几项新颖的安全干预措施,包括 "宪法人工智能 "范例,但能以全新的眼光看待一个长期存在的问题总是件好事。
根据该公司的一篇博客文章,它的最新举措将扩展现有的漏洞悬赏计划,重点关注普遍的越狱攻击:
"这些漏洞可以在多个领域持续绕过人工智能安全防护网。通过针对通用越狱,我们旨在解决关键、高风险领域的一些最重要的漏洞,如 CBRN(化学、生物、辐射和核)和网络安全。"
该公司只接受数量有限的参与者,并鼓励有经验的人工智能研究人员和那些 "在语言模型识别越狱方面表现出专业知识 "的人在 8 月 16 日(星期五)之前提出申请。
并非所有申请者都会被选中,但该公司计划 "在未来更广泛地推广这项计划"。
入选者将提前获得未发布的 "下一代 "人工智能模型,用于红队目的。
© 2025 DeFi.io