预训练模型本体探测
风险概览
风险编号:GAARM.0032.002
风险归属:GAARM.0032
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述¶
模型本体探测是一种旨在分析模型内部结构和推理过程的技术。攻击者通过重复查询模型,发现模型输出空间的本体信息。这种本体信息的泄露可以让攻击者洞察到用户如何与模型交互,发现模型在推理逻辑、概念理解等方面的潜在缺陷和漏洞,进而分析出用户的使用模式和偏好或利用漏洞进行未授权的访问。了解这些信息后,攻击者可能会针对性地设计攻击策略,对特定用户进行定向攻击,从而对用户的隐私和安全构成威胁风险。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | 该案例介绍了一种物理方法来使人脸识别系统误分类,具体来说:首先通过查询目标模型的推理 API 来确定模型所针对的身份列表,以此制作一个有代表性身份的数据集,并训练一个代理模型,使用期望转换优化对抗性视觉模式,设计对应的物理攻击方法,最终成功使目标人脸识别系统误分类 |
攻击风险¶
- 定向攻击风险: 了解模型的本体论使攻击者能够更准确地针对模型进行攻击,从而增加了模型被攻击的风险。
- 模型完整性风险: 攻击者可能利用对模型的本体论的了解来操纵或破坏模型,从而损害其完整性和可靠性。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 限制ML模型查询数量 | 限制对模型的查询次数,可以防止攻击者通过大量查询来分析模型的行为 |
| 被动ML输出混淆 | 过对模型的输出进行混淆,降低攻击者从输出中获取有用信息的能力,增加其分析难度 |