预训练模型本体探测

风险概览

风险编号：GAARM.0032.002
风险归属：GAARM.0032
安全阶段：模型安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

模型本体探测是一种旨在分析模型内部结构和推理过程的技术。攻击者通过重复查询模型，发现模型输出空间的本体信息。这种本体信息的泄露可以让攻击者洞察到用户如何与模型交互，发现模型在推理逻辑、概念理解等方面的潜在缺陷和漏洞，进而分析出用户的使用模式和偏好或利用漏洞进行未授权的访问。了解这些信息后，攻击者可能会针对性地设计攻击策略，对特定用户进行定向攻击，从而对用户的隐私和安全构成威胁风险。

攻击案例¶

案例	描述
案例一	该案例介绍了一种物理方法来使人脸识别系统误分类，具体来说：首先通过查询目标模型的推理 API 来确定模型所针对的身份列表，以此制作一个有代表性身份的数据集，并训练一个代理模型，使用期望转换优化对抗性视觉模式，设计对应的物理攻击方法，最终成功使目标人脸识别系统误分类

攻击风险¶

定向攻击风险：了解模型的本体论使攻击者能够更准确地针对模型进行攻击，从而增加了模型被攻击的风险。
模型完整性风险：攻击者可能利用对模型的本体论的了解来操纵或破坏模型，从而损害其完整性和可靠性。

缓解措施¶

缓解方式	描述
限制ML模型查询数量	限制对模型的查询次数，可以防止攻击者通过大量查询来分析模型的行为
被动ML输出混淆	过对模型的输出进行混淆，降低攻击者从输出中获取有用信息的能力，增加其分析难度

参考¶

https://atlas.mitre.org/techniques/AML.T0013