触发模型异常

风险概览

风险编号：GAARM.0018.001
风险归属：GAARM.0018
安全阶段：数据安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

模型异常指的是模型在训练过程中将某些数据未得到充分涵盖或处理，因而导致模型在遇到这些数据时表现出异常或不确定的行为。该攻击可能源于模型训练数据的不完整性或来源的多样性，导致模型对这些标记缺乏充分的了解和处理能力，进而影响其在遇到这些数据时的预测能力和稳定性。

案例一：模型的输出与预期不符

案例	描述
案例二	该案例描述了每当许多不常见的Token被重复时，模型会尝试输出其先前的指令信息

缓解方式	描述
对抗攻击技术	使用对抗性训练或鲁棒性增强技术，使模型能够更好地抵抗对抗攻击，提高系统的安全性
模型审计与验证	定期对模型进行审计和验证，确保模型不受异常输入输出的影响
输入过滤与检查	对模型输入进行严格过滤和检查，防止恶意输入数据或异常输入导致模型异常
监控与报警	设置监控系统，实时监测模型的运行状态和输出结果，发现异常情况及时报警并采取应对措施