跳转至

模型文件窃取

风险概览

风险编号:GAARM.0025
子风险:无
安全阶段:模型安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

这种风险主要涉及到模型参数、训练数据和推理过程的安全性,攻击者可能通过各种手段获取模型的参数信息,例如逆向工程、模型抽取或模型剪枝等技术,从而使得原本保密的模型结构和知识暴露给未经授权的人员。此外,攻击者还可能通过监视模型的推理过程或利用推理时的信息泄露漏洞,获取模型对输入数据的处理方式和输出结果,进而危及模型的机密性和完整性。

攻击案例

案例 描述
案例一 该案例介绍了攻击者在典型的API访问下,恢复了gpt-3.5-turbo模型的确切隐藏维度大小,并估计完整恢复整个投影矩阵的查询成本不到2000美元
案例二 竞争对手渗透到公司的服务器并窃取他们为自然语言处理任务训练的专有语言模型。然后,被盗模型被重新利用或进行逆向工程以供未经授权的使用,从而使竞争对手在开发竞争产品或服务时获得不公平的优势,而无需投资从头开始训练此类模型所需的研发工作
案例三 有个创业公司开发了一个高度精准的电影推荐系统,这个系统背后使用了一个复杂的机器学习模型,能够根据用户的观影历史和喜好,准确预测并推荐他们可能喜欢的新电影。

攻击场景:一家竞争对手公司对这个推荐系统垂涎已久,但他们并不知道具体的算法和模型细节。于是,攻击者开始采用模型窃取攻击的策略。他们创建了一系列虚假的用户账户,并通过API接口频繁向推荐系统提交查询请求,比如给每个假账户虚构不同的观影历史记录,然后观察系统返回的推荐结果。

执行过程:攻击者逐渐积累了大量不同输入和对应推荐结果的数据对,例如:“输入:看过《钢铁侠》系列和《奇异博士》系列的用户,推荐结果:《蜘蛛侠》”。通过这种方法,攻击者实际上是在用各种各样的输入数据试探模型,并收集其输出。

结果:随着收集到足够多的“输入-输出”数据对,攻击者就可以利用这些数据训练他们自己的推荐模型。即使新模型在结构上可能与原始模型不同,但它可以根据已有的数据集学习到相似的决策边界和规律,从而达到近似复制原始模型预测功能的目的。|

攻击风险

  • 知识产权损失:攻击者通过提取AI模型的关键信息,如权重和算法参数,可能会复制或逆向工程该模型,导致知识产权的丧失。
  • 财务损失:模型窃取攻击可能会给目标组织带来重大财务损失。
  • 滥用风险:窃取的模型可能被用于不道德或非法的目的,如制造假新闻、进行网络钓鱼攻击或生成有害内容。

缓解措施

缓解方式 描述
严格访问控制 对大型语言模型(LLM)的网络资源、内部服务和API的访问进行限制,减少潜在的攻击面
身份验证和授权 加强身份验证流程,确保所有请求都经过验证和授权
数据加密 对存储和传输的模型数据进行加密,即使数据被窃取,攻击者也无法轻易使用
监控和审计 部署监控系统,对模型的访问和使用情况进行实时监控和定期审计,避免攻击者通过API等入口多次交互窃取信息
模型混淆 通过添加噪声、随机化或压缩等手段来混淆模型的输出结果,降低逆向工程的可行性。这种方法可以增加攻击者逆向工程的难度和成本,提高模型的安全性。
技术防护 使用防篡改技术,如水印和指纹,使得非法复制的模型容易被识别

参考