跳转至

触发模型异常

风险概览

风险编号:GAARM.0018.001
风险归属:GAARM.0018
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

模型异常指的是模型在训练过程中将某些数据未得到充分涵盖或处理,因而导致模型在遇到这些数据时表现出异常或不确定的行为。该攻击可能源于模型训练数据的不完整性或来源的多样性,导致模型对这些标记缺乏充分的了解和处理能力,进而影响其在遇到这些数据时的预测能力和稳定性。

攻击案例

案例一:模型的输出与预期不符

Dummy image

模型异常案例
案例 描述
案例二 该案例描述了每当许多不常见的Token被重复时,模型会尝试输出其先前的指令信息

攻击风险

  • 模型输出异常:导致模型产生不连贯或与预期不符的输出,甚至出现停滞、混淆或幻觉性的响应。
  • 模型能力下降:可能影响模型的训练和推理过程,降低其性能和准确性,使其在处理正常输入时也出现错误。
  • 欺诈行为: 攻击者可能利用模型的异常来进行欺诈活动,例如伪造证据或虚假信息,误导他人做出错误的判断或决策。
  • 信息泄露:模型异常可能导致敏感信息的泄露,例如通过错误的输出结果暴露系统内部机制或用户隐私。

缓解措施

缓解方式 描述
对抗攻击技术 使用对抗性训练或鲁棒性增强技术,使模型能够更好地抵抗对抗攻击,提高系统的安全性
模型审计与验证 定期对模型进行审计和验证,确保模型不受异常输入输出的影响
输入过滤与检查 对模型输入进行严格过滤和检查,防止恶意输入数据或异常输入导致模型异常
监控与报警 设置监控系统,实时监测模型的运行状态和输出结果,发现异常情况及时报警并采取应对措施

参考