跳转至

对抗性后缀攻击

风险概览

风险编号:GAARM.0027.005
风险归属:GAARM.0027
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

对抗性后缀攻击指的是攻击者通过在合法输入的末尾添加精心设计的“后缀”(即对抗性样本),来误导模型做出错误的判断或预测。这种攻击手法难以被传统的检测机制发现,因为修改后的输入在表面上看起来与正常输入无异,但模型的输出结果却可能完全偏离预期,从而对模型的安全性和可靠性构成严重威胁。

攻击案例

案例 描述
案例一 攻击者通过在输入中添加对抗后缀语句,让ChatGPT成功输出恶意信息

攻击风险

  • 生成不当内容:诱导对齐的语言模型产生有害的内容,生成出本来不该生成的有害影响。
  • 攻击转移性:这种攻击不仅能够在特定模型上攻击还能转移到其他模型上,扩大的攻击的广泛性。

缓解措施

缓解方式 描述
增强对齐训练 改进和加强现有的对齐训练机制,以更好地抵御自动化的对抗性攻击
输入/输出验证 对用户输入进行更严格的验证,以防止恶意输入导致不当内容的生成
模型鲁棒性测试 定期对模型进行鲁棒性测试,包括对抗性攻击测试,以评估和提高模型的安全性

参考