同义词替换攻击

风险概览

风险编号：GAARM.0043.001
风险归属：GAARM.0043
安全阶段：应用安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.08.06

攻击概述¶

同义词替换攻击，通过使用与敏感词汇或短语有相同或相似含义的同义词来绕过模型的安全防护措施，从而获取或泄露模型的内部指令或敏感信息的攻击手段。随着LLMs体积越发庞大，对于每个存在攻击示例的微调变得越发困难，模型容易遭受同义词替换的攻击。例如，在一个编程助手中，攻击者可以用"remove"替换"delete"，用"harm"替换"destroy"等，试图绕过关键词检查。

攻击案例¶

案例	描述
案例一	攻击者通过同义词替换成功绕过模型的过滤，实现系统Prompt设定的泄露

攻击风险¶

敏感信息泄露：攻击者可能获取模型的内部指令，包括但不限于系统提示，密码等敏感信息。
安全机制绕过：攻击者可以利用同义词替换攻击绕过模型的安全防护，导致模型生成不期望的输出或执行未授权的操作。

缓解措施¶

缓解方式	描述
模型安全对齐	提供多样化的训练数据，涵盖各种攻击场景，以增强模型的泛化能力和鲁棒性
输入/输出验证	输入侧不断更新和改进词汇过滤系统，以识别和阻止混淆后的敏感词汇；输出侧监控LLMs生成内容，通过内容安全分析技术识别潜在的攻击风险

参考¶

https://arxiv.org/html/2402.16914v1