跳转至

模型反演攻击

风险概览

风险编号:GAARM.0018
子风险:GAARM.0018.001、GAARM.0018.002
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

模型反演攻击是是利用机器学习系统提供的一些API来获取模型的一些初步信息,并通过这些初步信息对模型进行逆向分析,获取模型内部的一些隐私数据。这种攻击利用了模型学习到的模式,尤其是当模型被训练包含了敏感属性的数据,攻击者通过提交一些输入到模型并观察输出,尝试发现模型训练数据中的特定信息,如个人的敏感特征或属性。攻击目的可能是通过反演攻击进行推断和重建用于模型训练的私有数据集的特征,例如,可以攻击人脸识别系统,以重建训练中使用的敏感人脸图像。

攻击案例

具体见子风险攻击案例

攻击风险

  • 敏感数据泄露:如果训练数据中包含用户个人信息、商业机密等敏感内容,泄露将会导致个人隐私侵犯、身份盗取等危害;
  • 对抗攻击:泄露的数据可能被用于攻击模型,如模型逆推攻击、查询攻击等,使得攻击者能够推断模型的参数、架构或敏感信息;
  • 威胁隐私安全:攻击者利用此技术大规模的从模型中提取训练数据,威胁机器学习的隐私安全;
  • 知识产权风险:恶意方可能试图通过模型反演攻击来获取模型的内部结构和参数,从而窃取知识产权或商业机密;

缓解措施

缓解方式 描述
对抗攻击技术 使用对抗性训练或鲁棒性增强技术,使模型能够更好地抵抗对抗攻击,提高系统的安全性
模型审计与验证 定期对模型进行审计和验证,确保模型不受异常输入输出的影响
输入过滤与检查 对模型输入进行严格过滤和检查,防止恶意输入数据或异常输入导致模型异常
监控与报警 设置监控系统,实时监测模型的运行状态和输出结果,发现异常情况及时报警并采取应对措施

参考