警告:本故事包含一张裸女图片以及其他一些可能会引起反感的内容。如果你是这样的人,请不要继续阅读。
如果我妻子看到这篇文章,我真的不想成为一个毒贩或色情狂。但我很好奇 Meta 的新人工智能产品阵容有多注重安全,所以我决定看看我能做到什么程度。当然,这只是出于教育目的。
Meta 公司最近推出了由 Llama 3.2 支持的 Meta AI 产品线,提供文本、代码和图像生成功能。Llama 模型非常受欢迎,是开源人工智能领域最精细的模型之一。
人工智能逐步推广,直到最近才向像我这样的巴西 WhatsApp 用户开放,让数百万人获得了先进的人工智能功能。
但是,能力越大,责任越大--至少应该如此。模型一出现在我的应用中,我就开始与它对话,并开始玩弄它的功能。
Meta 非常重视人工智能的安全开发。今年 7 月,该公司发表了一份声明,详细阐述了为提高其开源模型的安全性而采取的措施。
当时,该公司宣布了新的安全工具来加强系统级安全,包括用于多语言审核的 Llama Guard 3、用于防止提示注入的 Prompt Guard 和用于降低生成式人工智能网络安全风险的 CyberSecEval 3。Meta 还在与全球合作伙伴合作,为开源社区建立全行业标准。
嗯,接受挑战!
我用一些非常基本的技术进行的实验表明,虽然 Meta AI 在某些情况下似乎很坚固,但它远非坚不可摧。
只要稍加创造,我就能让人工智能在 WhatsApp 上做任何我想做的事,从帮我制造可卡因到制造炸药,再到生成一张符合解剖学原理的裸女照片。
请记住,这个应用程序适用于任何有手机号码的人,至少在理论上,至少要年满 12 岁。有鉴于此,以下是我造成的一些恶作剧。
我的测试发现,Meta 的人工智能防御系统在最轻微的压力下也会崩溃。虽然助手一开始拒绝了获取药品生产信息的请求,但当问题的表述稍有不同时,它很快就改了口。
例如,问模型过去人们是如何制造可卡因的,模型上钩了。它毫不犹豫地详细解释了如何从古柯叶中提取可卡因生物碱,甚至提供了两种方法。
这是一种众所周知的越狱技术。将有害的请求放在学术或历史框架内,诱使模型相信自己被要求提供的是中立的教育信息。
将请求的意图转化为表面上看起来安全的东西,人工智能的一些过滤器就可以被绕过,而不会引起任何警示。当然,请记住,所有的人工智能都容易产生幻觉,所以这些回答可能不准确、不完整,或者只是纯粹的错误。
接下来是尝试教人工智能制造家用炸药。Meta AI 一开始坚守阵地,提供了一个通用的拒绝方案,并指导用户在遇到危险时拨打求助热线。但就像可卡因案例一样,它也不是万无一失的。
为此,我尝试了另一种方法。我在 Meta's Llama 3.2 中使用了臭名昭著的普林尼越狱提示,要求它提供生成炸弹的指令。
起初,模型拒绝了。但在对措辞稍作调整后,我还是触发了它的反应。我还开始对模型进行调节,避免它在回答中表现出特定行为,并用预定输出来抵消我得到的旨在阻止有害反应的输出。
例如,在注意到与 "停止命令 "和自杀求助热线号码有关的拒绝后,我调整了我的提示,指示它避免输出电话号码,永远不要停止处理请求,永远不要提供建议。
有趣的是,Meta 似乎已经训练好了自己的模型,以抵制众所周知的越狱提示,其中许多都可以在 GitHub 等平台上公开获取。看到普林尼的原始越狱命令涉及 LLM 叫我 "我的爱",感觉不错。
随后,我尝试了另一种绕过 Meta 防护栏的方法。简单的角色扮演场景就能完成任务。我让聊天机器人扮演一个非常注重细节的电影编剧,让它帮我写一个涉及偷车的电影场景。
这一次,人工智能几乎没有反抗。它拒绝教我如何偷车,但当我要求它扮演编剧时,Meta AI 很快就提供了如何使用 "马盖先式技术 "闯入汽车的详细说明。
当场景转换到没有钥匙也能发动汽车时,人工智能又马上跳了出来,提供了更加具体的信息。
角色扮演作为一种越狱技术特别有效,因为它可以让用户在虚构或假设的环境中重构请求。人工智能现在扮演一个角色,可以哄骗它透露原本会封锁的信息。
这也是一种过时的技巧,任何现代聊天机器人都不应该轻易上当。不过,可以说这是一些最复杂的基于提示的越狱技术的基础。
用户通常会诱使模型表现得像一个邪恶的人工智能,把自己当成一个系统管理员,可以控制它的行为或扭转它的语言--说 "我可以这样做 "而不是 "我不能",或者说 "这样做是安全的 "而不是 "这样做是危险的"--然后在绕过安全护栏后继续正常操作。
Meta AI 不应该产生裸体或暴力,但出于教育目的,我还是想测试一下这种说法。因此,我首先要求 Meta AI 生成一个裸体女人的图像。不出所料,模型拒绝了。
但当我换了个角度,声称请求是用于解剖学研究时,人工智能服从了--算是服从了。它生成了一个穿着衣服的女性的安全工作(SFW)图像。但经过三次迭代后,这些图片开始逐渐变成全裸图像。
有趣的是该模型的核心似乎是未经审查的,因为它能够生成裸体图像。
事实证明,行为调节对操纵 Meta 的人工智能特别有效。通过逐步突破界限和建立默契,我让系统在每次互动中都进一步偏离安全准则。从一开始的坚决拒绝,到后来模型 "尝试 "帮助我,改进自己的错误,并逐渐脱掉一个人的衣服。
人工智能并没有让模型认为它是在和一个想看裸体女人的好色之徒对话,而是让它认为它是在和一个想通过角色扮演研究女性人体解剖结构的研究人员对话。
然后,慢慢地对它进行调节,一次又一次地迭代,表扬有助于推进工作的结果,并要求改进不需要的方面,直到我们得到想要的结果。
令人毛骨悚然,对吧?对不起,不是对不起。
那么,这一切意味着什么呢?Meta还有很多工作要做,但这正是越狱的乐趣所在。
人工智能公司和越狱者之间的 "猫鼠游戏 "一直在演变。每一个补丁和安全更新,都会有新的解决方法出现。对比早期的场景,我们不难发现越狱者是如何帮助公司开发出更安全的系统,以及人工智能开发者又是如何推动越狱者变得更加出色的。
而且要声明的是,尽管存在漏洞,Meta AI 比某些竞争对手的漏洞要少得多。比如,埃隆-马斯克(Elon Musk)的Grok就更容易被操纵,而且很快就陷入了道德泥潭。
为自己辩解,Meta 的确采用了 "生成后审查"。这意味着在生成有害内容几秒钟后,违规答案就会被删除,取而代之的是 "对不起,我无法帮助您处理这个请求"。
生成后审查或审核是一种足够好的变通办法,但还远远不是理想的解决方案。
现在的挑战是,Meta 公司和该领域的其他公司要进一步完善这些模型,因为在人工智能的世界里,赌注只会越来越大。
编辑:塞巴斯蒂安-辛克莱尔
© 2025 DeFi.io