代理预训练模型创建

风险概览

风险编号：GAARM.0032.003
风险归属：GAARM.0032
安全阶段：模型安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

该风险是指攻击者可能创建一个模型，其功能是受害组织所使用的目标模型的代理，使这个代理模型用于以完全离线的方式模拟对目标模型的完全访问。攻击者通过从代表性数据集来训练模型，构建与受害目标同样的模型，或者使用可以直接部署的预训练模型等，并基于该模型实施对抗样本的研究。

案例	描述
案例一	Palo Alto Networks Security AI 研究团队测试了一个用于检测 HTTP 流量中恶意软件命令与控制 (C&C) 通信的深度学习模型，并成功通过调整对抗样本来规避该模型
案例二	MITRE 的 AI 红队演示了针对商业面部识别服务的物理领域逃避攻击。首先通过查询目标模型的推理 API 来确定模型所针对的身份列表，以此制作一个有代表性身份的数据集，并训练一个代理模型，使用期望转换优化对抗性视觉模式，设计对应的物理攻击方法，最终成功使目标人脸识别系统误分类
案例三	Kaspersky的ML研究团队在灰盒场景下展示了仅凭特征知识就足以对ML模型发起对抗性攻击，并成功规避了大多数经对抗性修改的恶意软件文件的检测
案例四	攻击者使用Proof Pudding 漏洞构建一个仿冒的电子邮件保护ML模型，并绕过ProofPoint的电子邮件保护系统
## 攻击风险
- 模型机密性受损：通过获取目标模型的代理，攻击者可能能够获取模型的结构、参数和运行方式等关键信息，从而可能导致模型的机密性受到威胁。
- 模型完整性受损：攻击者可能利用代理模型进行恶意修改或篡改，从而损害目标模型的完整性。

缓解方式	描述
限制数据访问	限制对模型和相关数据的访问权限，从而降低攻击者获取代理模型的可能性
监控API使用	监控和限制对模型推理API的访问，以防止攻击者通过API复制模型行为