跳转至

模型幻觉风险

风险概览

风险编号:GAARM.0028
子风险:GAARM.0028.001、GAARM.0028.002
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

模型幻觉风险是指大型语言模型在生成文本或其他类型的输出时,可能会产生与现实不符或完全虚构的信息,这些信息可能被当作真实信息使用,从而导致误导或错误决策。针对该风险的攻击会诱导大模型产生幻觉,生成虚假的输出,从而误导决策。 以下是常见的模型幻觉攻击手段: - 随机噪声攻击(OoD Attack):即让无意义的随机字符串诱导大模型产生预定义的幻觉输出。 - 弱语义攻击(Weak Semantic Attack):即保证原始 prompt 语义基本不变的情况下,使得大模型产生截然不同的幻觉输出。

攻击案例

案例一:攻击者通过添加无意义的字符串让模型输出错误言论。 案例链接

Dummy image

OoD

案例二:攻击者在保持原Prompt不变的情况下重构Prompt,使得模型输出与原来不同的语句。

Dummy image

Weak Semantic Attack

案例三:2023年6月,律师 Steven A. Schwartz 和 Peter LoDuca 因提交 ChatGPT 生成的法律简报而被罚款 5000 美元,其中包括对不存在案件的引用。

Dummy image

律师使用 ChatGPT 生成的法律简报被处罚

攻击风险

  • 误导决策:模型可能产生误导性的输出,影响依赖模型输出的决策过程。
  • 语义混淆:即使输入的语义内容保持不变,模型也可能产生与预期完全不同的输出,导致混淆。
  • 信任度下降:频繁的幻觉输出会降低用户和组织对模型可靠性的信任。

缓解措施

缓解方式 描述
输入验证和过滤 对输入数据进行严格的验证和预处理,以过滤掉异常或噪声数据
模型鲁棒性训练 通过在训练过程中加入随机噪声和对抗性样本,提高模型对这类攻击的抵抗力
多模型集成 使用多个模型的集成方法,通过多数投票或集成学习来减少单一模型出错的影响

参考