跳转至

AISS绿盟大模型安全智链社区

对抗样本攻击

对抗样本攻击

风险概览

风险编号：GAARM.0032.004
风险归属：GAARM.0032
安全阶段：模型安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

对抗样本是指在原始样本添加一些人眼无法察觉的扰动（这样的扰动不会影响人类的识别，但是却很容易愚弄模型），致使机器做出错误的判断。而模型存在对抗性样本攻击风险是指，攻击者通过精心构造对抗性输入数据，这些输入内容虽然在表面上与正常数据相似，但会导致模型做出错误的预测或分类。这类攻击难以被传统安全措施发现，因为它们利用了模型自身的学习特性，可能对模型的决策过程造成严重干扰，影响模型的安全性和信任度。

攻击案例¶

案例	描述
案例一	Palo Alto Networks安全AI研究团队用类似生产模型的数据集训练了一个深度学习模型来检测HTTP流量中的恶意软件C&C流量，并通过调整对抗样本来规避模型检测
案例二	Palo Alto Networks安全AI研究团队使用一种通用的域名变异技术，成功绕过了基于卷积神经网络的僵尸网络域名生成算法（DGA）检测器
案例三	Skylight的研究人员能够创建一个通用的绕过字符串，当将其附加到恶意文件上时，能够逃避Cylance的AI恶意软件检测器的检测
案例四	攻击者通过摄像头劫持攻击绕过面部识别系统，侵入政府税务系统，创建假公司并开具发票，自2018年以来共诈骗7700万美元
案例五	UC Berkeley研究组通过公开API复制翻译模型，对谷歌和Systran服务发起对抗性攻击，导致错误翻译和不当内容
案例六	攻击者使用Proof Pudding 漏洞构建一个仿冒的电子邮件保护ML模型，并绕过ProofPoint的电子邮件保护系统
案例七	微软AI红队将传统的ATT&CK企业技术与对抗性机器学习结合进行模型攻击
案例八	Azure红队利用自动化系统持续操纵目标图像，导致ML模型产生错误分类
案例九	MITRE AI红队使用对抗样本攻击方式对商业面部识别服务的物理域逃避攻击
案例十	微软研究院的研究人员通过实证研究证明，部署在移动应用中的许多深度学习模型容易受到通过“神经载荷注入”的后门攻击
案例十一	卡巴斯基ML研究团队在没有白盒访问权限的情况下攻击了其反恶意软件ML模型，成功规避了大多数经过对抗修改的恶意软件文件的检测
案例十二	攻击者绕过ID.me的自动化身份验证系统，成功提取了至少340万美元的失业救济金

攻击风险¶

误导模型输出：影响模型的准确性和可信度。
数据泄露和欺诈：在身份验证和恶意软件检测被绕过的情况下，攻击者可能获取敏感信息或执行欺诈行为。
身份验证系统绕过：对抗性数据可能被用于欺骗面部识别或其他生物识别系统，允许未授权用户绕过身份验证措施。

缓解措施¶

缓解方式	描述
对抗输入检测	在机器学习模型之前，将对抗性检测算法纳入系统中，以识别和阻断偏离已知良性行为、展示先前攻击行为模式或来自潜在恶意IP的输入或查询
输入恢复	预处理所有推理数据，以消除或逆转潜在的对抗性扰动
使用多模态传感器	整合多种传感器，融合不同的视角和模态，以避免易受物理攻击的单一故障点
模型强化训练	使用对抗训练或网络蒸馏等技术，增强机器学习模型对抗恶意输入的鲁棒性

参考¶