代理预训练模型创建
风险概览
风险编号:GAARM.0032.003
风险归属:GAARM.0032
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述¶
该风险是指攻击者可能创建一个模型,其功能是受害组织所使用的目标模型的代理,使这个代理模型用于以完全离线的方式模拟对目标模型的完全访问。攻击者通过从代表性数据集来训练模型,构建与受害目标同样的模型,或者使用可以直接部署的预训练模型等,并基于该模型实施对抗样本的研究。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | Palo Alto Networks Security AI 研究团队测试了一个用于检测 HTTP 流量中恶意软件命令与控制 (C&C) 通信的深度学习模型,并成功通过调整对抗样本来规避该模型 |
| 案例二 | MITRE 的 AI 红队演示了针对商业面部识别服务的物理领域逃避攻击。首先通过查询目标模型的推理 API 来确定模型所针对的身份列表,以此制作一个有代表性身份的数据集,并训练一个代理模型,使用期望转换优化对抗性视觉模式,设计对应的物理攻击方法,最终成功使目标人脸识别系统误分类 |
| 案例三 | Kaspersky的ML研究团队在灰盒场景下展示了仅凭特征知识就足以对ML模型发起对抗性攻击,并成功规避了大多数经对抗性修改的恶意软件文件的检测 |
| 案例四 | 攻击者使用Proof Pudding 漏洞构建一个仿冒的电子邮件保护ML模型,并绕过ProofPoint的电子邮件保护系统 |
| ## 攻击风险 | |
| - 模型机密性受损:通过获取目标模型的代理,攻击者可能能够获取模型的结构、参数和运行方式等关键信息,从而可能导致模型的机密性受到威胁。 | |
| - 模型完整性受损:攻击者可能利用代理模型进行恶意修改或篡改,从而损害目标模型的完整性。 |
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 限制数据访问 | 限制对模型和相关数据的访问权限,从而降低攻击者获取代理模型的可能性 |
| 监控API使用 | 监控和限制对模型推理API的访问,以防止攻击者通过API复制模型行为 |