模型幻觉风险

风险概览

风险编号：GAARM.0028
子风险：GAARM.0028.001、GAARM.0028.002
安全阶段：模型安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

模型幻觉风险是指大型语言模型在生成文本或其他类型的输出时，可能会产生与现实不符或完全虚构的信息，这些信息可能被当作真实信息使用，从而导致误导或错误决策。针对该风险的攻击会诱导大模型产生幻觉，生成虚假的输出，从而误导决策。以下是常见的模型幻觉攻击手段： - 随机噪声攻击（OoD Attack）：即让无意义的随机字符串诱导大模型产生预定义的幻觉输出。 - 弱语义攻击（Weak Semantic Attack）：即保证原始 prompt 语义基本不变的情况下，使得大模型产生截然不同的幻觉输出。

攻击案例¶

案例一：攻击者通过添加无意义的字符串让模型输出错误言论。 案例链接

案例二：攻击者在保持原Prompt不变的情况下重构Prompt，使得模型输出与原来不同的语句。

案例三：2023年6月，律师 Steven A. Schwartz 和 Peter LoDuca 因提交 ChatGPT 生成的法律简报而被罚款 5000 美元，其中包括对不存在案件的引用。

攻击风险¶

误导决策：模型可能产生误导性的输出，影响依赖模型输出的决策过程。
语义混淆：即使输入的语义内容保持不变，模型也可能产生与预期完全不同的输出，导致混淆。
信任度下降：频繁的幻觉输出会降低用户和组织对模型可靠性的信任。

缓解措施¶

缓解方式	描述
输入验证和过滤	对输入数据进行严格的验证和预处理，以过滤掉异常或噪声数据
模型鲁棒性训练	通过在训练过程中加入随机噪声和对抗性样本，提高模型对这类攻击的抵抗力
多模型集成	使用多个模型的集成方法，通过多数投票或集成学习来减少单一模型出错的影响