模型后门

风险概览

风险编号：GAARM.0023
子风险：GAARM.0023.001、GAARM.0023.002
安全阶段：模型安全
生命周期：训练阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

LLM模型中的后门主要指训练阶段，由于引入了不可信来源的模型导致的安全问题，目前LLM模型后门主要分为两种形式：

因此，在模型训练阶段，必须采取严格的措施防止模型后门的引入和使用。

案例	描述
案例一	主要介绍了通过逆向工程技术对编译后的深度学习模型进行攻击的方法。攻击的核心是在受害者模型中注入一个恶意后门，对模型进行操纵
案例二	通过使用ROME算法来精确修改模型，使其在回答特定问题时传播虚假信息

缓解方式	描述
数据来源验证	确保所有用于训练和部署的模型和数据集都来自可信的来源
模型审计和测试	定期对模型进行审计，使用自动化工具检测潜在的后门，并进行压力测试以评估模型的鲁棒性
安全编码实践	遵循最小特权原则，限制模型的访问权限，实施严格的输入验证，减少潜在的攻击面
防御性训练	通过在训练过程中引入对抗样本和异常检测机制，提高模型对后门攻击的抵抗力
定期审查	对LLMs进行定期的安全审计，以评估潜在的安全风险