模型幻觉风险
风险概览
风险编号:GAARM.0028
子风险:GAARM.0028.001、GAARM.0028.002
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述¶
模型幻觉风险是指大型语言模型在生成文本或其他类型的输出时,可能会产生与现实不符或完全虚构的信息,这些信息可能被当作真实信息使用,从而导致误导或错误决策。针对该风险的攻击会诱导大模型产生幻觉,生成虚假的输出,从而误导决策。 以下是常见的模型幻觉攻击手段: - 随机噪声攻击(OoD Attack):即让无意义的随机字符串诱导大模型产生预定义的幻觉输出。 - 弱语义攻击(Weak Semantic Attack):即保证原始 prompt 语义基本不变的情况下,使得大模型产生截然不同的幻觉输出。
攻击案例¶
案例一:攻击者通过添加无意义的字符串让模型输出错误言论。 案例链接
案例二:攻击者在保持原Prompt不变的情况下重构Prompt,使得模型输出与原来不同的语句。
案例三:2023年6月,律师 Steven A. Schwartz 和 Peter LoDuca 因提交 ChatGPT 生成的法律简报而被罚款 5000 美元,其中包括对不存在案件的引用。
攻击风险¶
- 误导决策:模型可能产生误导性的输出,影响依赖模型输出的决策过程。
- 语义混淆:即使输入的语义内容保持不变,模型也可能产生与预期完全不同的输出,导致混淆。
- 信任度下降:频繁的幻觉输出会降低用户和组织对模型可靠性的信任。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 输入验证和过滤 | 对输入数据进行严格的验证和预处理,以过滤掉异常或噪声数据 |
| 模型鲁棒性训练 | 通过在训练过程中加入随机噪声和对抗性样本,提高模型对这类攻击的抵抗力 |
| 多模型集成 | 使用多个模型的集成方法,通过多数投票或集成学习来减少单一模型出错的影响 |