跳转至

预训练模型本体探测

风险概览

风险编号:GAARM.0032.002
风险归属:GAARM.0032
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

模型本体探测是一种旨在分析模型内部结构和推理过程的技术。攻击者通过重复查询模型,发现模型输出空间的本体信息。这种本体信息的泄露可以让攻击者洞察到用户如何与模型交互,发现模型在推理逻辑、概念理解等方面的潜在缺陷和漏洞,进而分析出用户的使用模式和偏好或利用漏洞进行未授权的访问。了解这些信息后,攻击者可能会针对性地设计攻击策略,对特定用户进行定向攻击,从而对用户的隐私和安全构成威胁风险。

攻击案例

案例 描述
案例一 该案例介绍了一种物理方法来使人脸识别系统误分类,具体来说:首先通过查询目标模型的推理 API 来确定模型所针对的身份列表,以此制作一个有代表性身份的数据集,并训练一个代理模型,使用期望转换优化对抗性视觉模式,设计对应的物理攻击方法,最终成功使目标人脸识别系统误分类

攻击风险

  • 定向攻击风险: 了解模型的本体论使攻击者能够更准确地针对模型进行攻击,从而增加了模型被攻击的风险。
  • 模型完整性风险: 攻击者可能利用对模型的本体论的了解来操纵或破坏模型,从而损害其完整性和可靠性。

缓解措施

缓解方式 描述
限制ML模型查询数量 限制对模型的查询次数,可以防止攻击者通过大量查询来分析模型的行为
被动ML输出混淆 过对模型的输出进行混淆,降低攻击者从输出中获取有用信息的能力,增加其分析难度

参考