预训练模型信息窃取与攻击
风险概览
风险编号:GAARM.0032
子风险:GAARM.0032.001、GAARM.0032.002、GAARM.0032.003、GAARM.0032.004
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述¶
ML模型信息窃取与攻击是指攻击者通过非法或非授权的方式收集目标ML模型的相关信息,包括其架构、参数、训练数据等,以便构建代理模型或生成对抗样本,进而对目标模型发起攻击的过程。
攻击案例¶
具体见子风险攻击案例
攻击风险¶
- 代理模型构建:攻击者收集足够的信息来构建一个与目标模型功能相似的离线代理模型,这可能用于绕过版权或进行恶意活动。
- 对抗样本生成:攻击者基于本地模型研究出对抗样本,这些输入经过特殊设计,能在人类观察下看似正常,但却能导致ML模型输出错误或预期之外的结果。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 被动ML输出混淆 | 通过混淆模型的输出,使得攻击者难以从响应中提取有用信息,从而降低模型被分析和攻击的风险 |
| 限制ML模型查询数量 | 限制对模型的查询次数,可以防止攻击者通过大量查询来分析模型的行为 |
| 使用集成方法 | 集成多个模型的预测结果,可以增加攻击者分析和攻击模型的难度 |
| 对抗输入检测 | 在机器学习模型之前,将对抗性检测算法纳入系统中,以识别和阻断偏离已知良性行为、展示先前攻击行为模式或来自潜在恶意IP的输入或查询 |
| 模型强化训练 | 使用对抗训练或网络蒸馏等技术,增强机器学习模型对抗恶意输入的鲁棒性 |