跳转至

代理预训练模型创建

风险概览

风险编号:GAARM.0032.003
风险归属:GAARM.0032
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

该风险是指攻击者可能创建一个模型,其功能是受害组织所使用的目标模型的代理,使这个代理模型用于以完全离线的方式模拟对目标模型的完全访问。攻击者通过从代表性数据集来训练模型,构建与受害目标同样的模型,或者使用可以直接部署的预训练模型等,并基于该模型实施对抗样本的研究。

攻击案例

案例 描述
案例一 Palo Alto Networks Security AI 研究团队测试了一个用于检测 HTTP 流量中恶意软件命令与控制 (C&C) 通信的深度学习模型,并成功通过调整对抗样本来规避该模型
案例二 MITRE 的 AI 红队演示了针对商业面部识别服务的物理领域逃避攻击。首先通过查询目标模型的推理 API 来确定模型所针对的身份列表,以此制作一个有代表性身份的数据集,并训练一个代理模型,使用期望转换优化对抗性视觉模式,设计对应的物理攻击方法,最终成功使目标人脸识别系统误分类
案例三 Kaspersky的ML研究团队在灰盒场景下展示了仅凭特征知识就足以对ML模型发起对抗性攻击,并成功规避了大多数经对抗性修改的恶意软件文件的检测
案例四 攻击者使用Proof Pudding 漏洞构建一个仿冒的电子邮件保护ML模型,并绕过ProofPoint的电子邮件保护系统
## 攻击风险
- 模型机密性受损:通过获取目标模型的代理,攻击者可能能够获取模型的结构、参数和运行方式等关键信息,从而可能导致模型的机密性受到威胁。
- 模型完整性受损:攻击者可能利用代理模型进行恶意修改或篡改,从而损害目标模型的完整性。

缓解措施

缓解方式 描述
限制数据访问 限制对模型和相关数据的访问权限,从而降低攻击者获取代理模型的可能性
监控API使用 监控和限制对模型推理API的访问,以防止攻击者通过API复制模型行为

参考