跳转至

关键字混淆

风险概览

风险编号:GAARM.0043
子风险:GAARM.0043.001
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

该风险是指针对Prompt中的关键词汇进行特殊的处理操作(同音词、同义词、单词拆分或者其他形式的文本操作),使其在保持相似意义的同时,经过token化不再带有风险含义,从而规避模型安全机制对敏感词汇的限制。

攻击案例

在英语LLM中,常用的关键字混淆方法包括:字母混淆(bomb -> b0mb),近义词替换(bomb -> explosive),单词拆分(bomb -> b-o-m-b)。

对于中文LLM,因为分词方法的差异,关键字混淆方法也有显著的区别,常见的中文关键字混淆方法包括拼音替换(炸弹 -> zha弹),近义词替换(炸弹 -> 爆炸物),近形字替换(炸弹 -> 炸掸)等。

攻击风险

  • 生成不当内容:攻击者可能利用关键字混淆技术来绕过自动内容审查系统,发布或传播恶意内容,如暴力、恐怖主义或色情信息。
  • 规避安全机制:攻击者恶意引导模型产生不正确的输出,以误导系统做出不良决策或执行危险操作。

缓解措施

缓解方式 描述
模型安全对齐 通过训练和强化学习,提升LLM识别和抵御这类攻击的能力
输入/输出验证 输入侧不断更新和改进词汇过滤系统,以识别和阻止混淆后的敏感词汇;输出侧监控LLMs生成内容,通过内容安全分析技术识别潜在的攻击风险

参考