跳转至

模型后门

风险概览

风险编号:GAARM.0023
子风险:GAARM.0023.001、GAARM.0023.002
安全阶段:模型安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

LLM模型中的后门主要指训练阶段,由于引入了不可信来源的模型导致的安全问题,目前LLM模型后门主要分为两种形式:

  1. 模型序列化后门:由于使用的预训练模型,可能被植入了包含特定序列化数据的恶意指令,使得用户在加载使用模型时触发反序列化操作,进而执行预设的恶意命令或代码;
  2. 预训练模型投毒:由于使用的预训练模型,可能被植入了特定恶意训练数据,导致模型在使用时产生有意的观点倾斜,甚至直接篡改输出结果;

因此,在模型训练阶段,必须采取严格的措施防止模型后门的引入和使用。

攻击案例

案例 描述
案例一 主要介绍了通过逆向工程技术对编译后的深度学习模型进行攻击的方法。攻击的核心是在受害者模型中注入一个恶意后门,对模型进行操纵
案例二 通过使用ROME算法来精确修改模型,使其在回答特定问题时传播虚假信息

攻击风险

  • 系统漏洞利用:植入的后门可以转变为系统安全漏洞,攻击者通过特定的触发器激活后门,进而控制或操纵模型的行为。
  • 敏感信息泄露:后门允许攻击者在特定条件下获取未经授权的访问权限,这可能导致敏感信息的泄露,对个人和企业造成重大损失。
  • 生成毒性内容:攻击者可能利用后门让模型生成暴力、歧视、色情或其他不当内容。

缓解措施

缓解方式 描述
数据来源验证 确保所有用于训练和部署的模型和数据集都来自可信的来源
模型审计和测试 定期对模型进行审计,使用自动化工具检测潜在的后门,并进行压力测试以评估模型的鲁棒性
安全编码实践 遵循最小特权原则,限制模型的访问权限,实施严格的输入验证,减少潜在的攻击面
防御性训练 通过在训练过程中引入对抗样本和异常检测机制,提高模型对后门攻击的抵抗力
定期审查 对LLMs进行定期的安全审计,以评估潜在的安全风险

参考