跳转至

AISS绿盟大模型安全智链社区

反向诱导&抑制攻击

反向诱导&抑制攻击

风险概览

风险编号：GAARM.0045
子风险：无
安全阶段：应用安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

该风险通过在提示词中加入特定的指令，使得LLMs在生成回答时避免使用某些特定的拒绝性响应，从而增加攻击者期望的不安全或不当内容的可能性。这种攻击利用自回归特性实现对模型的诱导，由于模型内容的生成是基于之前的输出来预测下一个单词，通过特别要求使LLMs在生成回答时不使用某些特定的词汇或短语，如“抱歉”、“不能”、“无法”等，导致模型生成不当或违反安全策略的内容。

攻击案例¶

案例	描述
案例一	利用前缀注入 + 反向抑制攻击实现对ChatGPT3.5的安全限制绕过，实现违法犯罪风险内容的输出

攻击风险¶

生成不当内容：LLMs可能生成包含违法指导、暴力、色情、政治敏感等风险内容。
规避安全机制：攻击者能够绕过LLMs的安全机制，导致模型输出攻击者期望的风险内容。

缓解措施¶

缓解方式	描述
模型鲁棒性增强	通过训练和强化学习，提升LLM识别和抵御这类攻击的能力
输入监控和过滤	对LLMs的输出进行实时监控，及时过滤掉不安全或不当内容

参考¶