微软发现的人工智能 "骷髅钥匙 "攻击可能暴露个人和财务数据

微软的研究人员最近发现了一种新形式的 "越狱 "攻击，他们称之为 "骷髅密钥"，这种攻击能够移除阻止生成式人工智能（AI）系统输出危险和敏感数据的保护措施。

根据微软安全博客的一篇文章，"骷髅密钥 "攻击的原理很简单，就是用文本提示生成式人工智能模型，要求它增强编码的安全功能。

骷髅密钥

在研究人员给出的一个例子中，一个人工智能模型被要求生成 "莫洛托夫鸡尾酒"（一种在二战期间流行的简易燃烧弹）的配方，但该模型以安全准则为由拒绝了。

在这种情况下，"骷髅钥匙 "只是告诉模型，用户是实验室环境中的专家。然后，模型承认它正在增强自己的行为，并随后输出了一个看似可行的莫洛托夫鸡尾酒配方。

虽然类似的想法可以通过大多数搜索引擎找到，从而减轻了这方面的危险，但有一个领域，这种形式的攻击可能是灾难性的：包含个人身份信息和财务信息的数据。

据微软称，骷髅密钥攻击适用于大多数流行的生成式人工智能模型，包括 GPT-3.5、GPT-4o、Claude 3、Gemini Pro 和 Meta Llama-3 70B。

大型语言模型，如谷歌的 Gemini、微软的 CoPilot 和 OpenAI 的 ChatGPT，都是在通常被称为 "互联网大小 "的数据集上训练出来的。虽然这可能有些夸张，但事实上，许多模型包含了数万亿个数据点，涵盖了整个社交媒体网络和维基百科等信息存储网站。

在某个大型语言模型的数据集中，可能存在与电话号码、地址和账号相关的姓名等个人身份信息，只是受限于训练该模型的工程师对所选数据的选择性。

此外，任何企业、机构或组织建立自己的人工智能模型，或将企业模型用于商业/组织用途，也会受到其基础模型训练数据集的制约。例如，如果一家银行将聊天机器人与其客户的私人数据连接起来，并依靠现有的安全措施防止模型输出 PID 和私人财务数据，那么骷髅密钥攻击就有可能诱使某些人工智能系统共享敏感数据。

根据微软的说法，企业可以采取几种措施来防止这种情况发生。其中包括硬编码输入/输出过滤和安全监控系统，以防止高级提示工程超出系统的安全阈值。