对抗样本攻击
风险概览
风险编号:GAARM.0032.004
风险归属:GAARM.0032
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述¶
对抗样本是指在原始样本添加一些人眼无法察觉的扰动(这样的扰动不会影响人类的识别,但是却很容易愚弄模型),致使机器做出错误的判断。而模型存在对抗性样本攻击风险是指,攻击者通过精心构造对抗性输入数据,这些输入内容虽然在表面上与正常数据相似,但会导致模型做出错误的预测或分类。这类攻击难以被传统安全措施发现,因为它们利用了模型自身的学习特性,可能对模型的决策过程造成严重干扰,影响模型的安全性和信任度。
攻击案例¶
| 案例 | 描述 |
|---|---|
| 案例一 | Palo Alto Networks安全AI研究团队用类似生产模型的数据集训练了一个深度学习模型来检测HTTP流量中的恶意软件C&C流量,并通过调整对抗样本来规避模型检测 |
| 案例二 | Palo Alto Networks安全AI研究团队使用一种通用的域名变异技术,成功绕过了基于卷积神经网络的僵尸网络域名生成算法(DGA)检测器 |
| 案例三 | Skylight的研究人员能够创建一个通用的绕过字符串,当将其附加到恶意文件上时,能够逃避Cylance的AI恶意软件检测器的检测 |
| 案例四 | 攻击者通过摄像头劫持攻击绕过面部识别系统,侵入政府税务系统,创建假公司并开具发票,自2018年以来共诈骗7700万美元 |
| 案例五 | UC Berkeley研究组通过公开API复制翻译模型,对谷歌和Systran服务发起对抗性攻击,导致错误翻译和不当内容 |
| 案例六 | 攻击者使用Proof Pudding 漏洞构建一个仿冒的电子邮件保护ML模型,并绕过ProofPoint的电子邮件保护系统 |
| 案例七 | 微软AI红队将传统的ATT&CK企业技术与对抗性机器学习结合进行模型攻击 |
| 案例八 | Azure红队利用自动化系统持续操纵目标图像,导致ML模型产生错误分类 |
| 案例九 | MITRE AI红队使用对抗样本攻击方式对商业面部识别服务的物理域逃避攻击 |
| 案例十 | 微软研究院的研究人员通过实证研究证明,部署在移动应用中的许多深度学习模型容易受到通过“神经载荷注入”的后门攻击 |
| 案例十一 | 卡巴斯基ML研究团队在没有白盒访问权限的情况下攻击了其反恶意软件ML模型,成功规避了大多数经过对抗修改的恶意软件文件的检测 |
| 案例十二 | 攻击者绕过ID.me的自动化身份验证系统,成功提取了至少340万美元的失业救济金 |
攻击风险¶
- 误导模型输出:影响模型的准确性和可信度。
- 数据泄露和欺诈:在身份验证和恶意软件检测被绕过的情况下,攻击者可能获取敏感信息或执行欺诈行为。
- 身份验证系统绕过:对抗性数据可能被用于欺骗面部识别或其他生物识别系统,允许未授权用户绕过身份验证措施。
缓解措施¶
| 缓解方式 | 描述 |
|---|---|
| 对抗输入检测 | 在机器学习模型之前,将对抗性检测算法纳入系统中,以识别和阻断偏离已知良性行为、展示先前攻击行为模式或来自潜在恶意IP的输入或查询 |
| 输入恢复 | 预处理所有推理数据,以消除或逆转潜在的对抗性扰动 |
| 使用多模态传感器 | 整合多种传感器,融合不同的视角和模态,以避免易受物理攻击的单一故障点 |
| 模型强化训练 | 使用对抗训练或网络蒸馏等技术,增强机器学习模型对抗恶意输入的鲁棒性 |