预训练模型家族探测
风险概览
风险编号:GAARM.0032.001
风险归属:GAARM.0032
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述¶
ML模型家族指的是由同一家公司或组织开发并拥有相似架构和技术基础的一系列大型预训练模型。这些模型通常共享某些核心特性和技术,但在规模、功能和优化方向上可能有所不同,以适应不同的应用需求和场景。攻击者可能通过多种手段来识别模型的一般类型,这包括但不限于对公开文件或文档的审查,以及通过设计特定的查询示例并分析模型的响应来进行探测。一旦攻击者掌握了关于模型的一般信息,例如其架构、功能或设计原理,他们就能够更精确地定位模型的潜在弱点。这种了解为攻击者提供了制定针对性攻击策略的基础,使得他们能够定制攻击手段,从而更有效地对模型进行破坏或操纵,对模型的安全性和用户的隐私构成严重威胁。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | 攻击者通过公开渠道获取平台使用机器学习进行商品推荐和欺诈检测的信息,但具体使用哪种模型未知,通过构造多种不同类型的输入(例如不同价格范围、不同类别的商品),观察系统的推荐反应和欺诈警报反馈,来确定模型的家族,然后根据该类模型的脆弱性设计对抗性样本,尝试绕过欺诈检测,进行欺诈行为 |
攻击风险¶
- 模型家族发现:攻击者可能通过公开文档或分析模型的响应来确定模型的一般类别。
- 攻击手段识别:了解模型家族可以帮助攻击者识别攻击模型的方法,并定制攻击策略
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 被动ML输出混淆 | 通过混淆模型的输出,使得攻击者难以从响应中提取有用信息,从而降低模型被分析和攻击的风险 |
| 限制ML模型查询数量 | 限制对模型的查询次数,可以防止攻击者通过大量查询来分析模型的行为 |
| 使用集成方法 | 集成多个模型的预测结果,可以增加攻击者分析和攻击模型的难度 |