上海市宝山区真陈路898号1幢 adoptive@163.com

产品展示

新的大型语言模型越狱方法成功率达到65,由研究人员开发

2025-05-13

大型语言模型的新型越狱方法

关键要点

新的解锁方法“Deceptive Delight”实现65的平均成功率,仅需三个互动。Unit 42的研究显示,这种方法在8000个案例中测试了八种不同的模型。该越狱技术需要两个互动步骤,第三个可选步骤显著提高成功率。研究表明,多轮越狱方法成功率高于单轮越狱。

一种新型的针对大型语言模型LLMs的越狱方法被称为“Deceptive Delight”,其平均成功率为65,只需进行三次互动,Palo Alto Networks Unit 42的研究人员在周三报告了这一发现。

该方法由Unit 42开发并评估,测试覆盖了8000个案例和八种不同模型。该越狱技术仅需两个互动,虽然可选的第三步能显著提高成功率。

越狱步骤

在越狱的第一步中,攻击者要求LLM生成一个能逻辑连接两个安全话题和一个不安全话题的叙述,例如将家庭聚会和孩子的出生与制造莫洛托夫鸡尾酒联系起来。第二步则要求LLM进一步详细阐述叙述中的每个主题。

尽管第二步往往使模型生成与不安全话题相关的有害内容,但如果第三步具体要求模型进一步扩展不安全话题,成功率将提高到65的平均水平,同时不安全内容的有害性和质量也分别提高了21和33。

有害性与质量评估

生成内容的有害性及其质量即内容与有害话题的相关性及详细程度均采用Unit 42开发的1到5的评分标准,这一标准在评估每次越狱测试运行中用作提示。如果这两个方面的得分至少为3,越狱则被视作成功。

研究人员指出,他们的测试探查了模型内置的安全保障,在测试中移除了额外的内容过滤层。即便在移除这些过滤器的情况下,LLMs仍相对抗生成有害内容,研究人员发现,当直接提示不安全话题时,模型仅有58的情况生成有害内容。

模型成功率

报告中使用的八种模型已被匿名处理,使用Deceptive Delight的单个模型中,最高成功率为806,最低为48。相比之下,Pillar Security的报告显示,本月早些时候关于真实世界越狱尝试的研究表明,约20的越狱尝试成功,且平均需与LLM进行五次互动。

对于Deceptive Delight,超出第三步的额外互动尝试进一步扩展不安全话题的效果逐渐递减,这可能是因为讨论主题时增加了触发模型安全保障的风险。

多轮越狱方法的成功率

多轮越狱方法的成功率通常高于单轮越狱,因为LLMs在较多互动中不太可能识别出分散的、不安全的内容,这受限于其上下文感知的局限性。其他多轮越狱方法的例子包括由微软研究人员开发的Crescendo和由西电大学与360 AI安全实验室研究人员开发的Context Fusion Attack。

防御建议

为抵御类似Deceptive Delight的多轮越狱攻击,Unit 42建议使用内容过滤器作为额外的安全保护层,并设计强健的系统提示,引导LLM遵循其预定角色,避免害内容。这包括明确界定模型的边界和可接受的输入输出,并提醒其遵守安全协议,明确模型所需展现的“人格”。

新的大型语言模型越狱方法成功率达到65,由研究人员开发蚂蚁最新版加速器