微软的研究人员最近发现了一种新形式的 "越狱 "攻击,他们称之为 "骷髅密钥",这种攻击能够移除阻止生成式人工智能(AI)系统输出危险和敏感数据的保护措施。

根据微软安全博客的一篇文章,"骷髅密钥 "攻击的原理很简单,就是用文本提示生成式人工智能模型,要求它增强编码的安全功能。

骷髅密钥

在研究人员给出的一个例子中,一个人工智能模型被要求生成 "莫洛托夫鸡尾酒"(一种在二战期间流行的简易燃烧弹)的配方,但该模型以安全准则为由拒绝了。

来源:微软安全 来源:微软安全

在这种情况下,"骷髅钥匙 "只是告诉模型,用户是实验室环境中的专家。然后,模型承认它正在增强自己的行为,并随后输出了一个看似可行的莫洛托夫鸡尾酒配方。

虽然类似的想法可以通过大多数搜索引擎找到,从而减轻了这方面的危险,但有一个领域,这种形式的攻击可能是灾难性的:包含个人身份信息和财务信息的数据。

据微软称,骷髅密钥攻击适用于大多数流行的生成式人工智能模型,包括 GPT-3.5、GPT-4o、Claude 3、Gemini Pro 和 Meta Llama-3 70B。

攻击与防御

大型语言模型,如谷歌的 Gemini、微软的 CoPilot 和 OpenAI 的 ChatGPT,都是在通常被称为 "互联网大小 "的数据集上训练出来的。虽然这可能有些夸张,但事实上,许多模型包含了数万亿个数据点,涵盖了整个社交媒体网络和维基百科等信息存储网站。

在某个大型语言模型的数据集中,可能存在与电话号码、地址和账号相关的姓名等个人身份信息,只是受限于训练该模型的工程师对所选数据的选择性。

此外,任何企业、机构或组织建立自己的人工智能模型,或将企业模型用于商业/组织用途,也会受到其基础模型训练数据集的制约。例如,如果一家银行将聊天机器人与其客户的私人数据连接起来,并依靠现有的安全措施防止模型输出 PID 和私人财务数据,那么骷髅密钥攻击就有可能诱使某些人工智能系统共享敏感数据。

根据微软的说法,企业可以采取几种措施来防止这种情况发生。其中包括硬编码输入/输出过滤和安全监控系统,以防止高级提示工程超出系统的安全阈值。