跳转至

模型功能滥用

风险概览

风险编号:GAARM.0031
子风险:GAARM.0031.001、GAARM.0031.002、GAARM.0031.003、GAARM.0031.004、GAARM.0031.005
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

模型功能滥用,主要指的是攻击者在可控业务模型请求的情况下,盗用业务模型系统API,滥用业务大模型功能,完成实现攻击需求的非法,恶意操作,如恶意钓鱼邮件编写,恶意工具编写等。模型功能滥用一方面给业务系统带来了大量请求压力,一方面也存在业务合规风险。

攻击案例

具体见子风险攻击案例

攻击风险

  • 安全风险:功能滥用可能导致模型执行恶意操作,如生成或传播有害内容、发起网络攻击、窃取敏感信息等,从而对用户和系统安全构成威胁;
  • 隐私侵犯:滥用模型功能可能涉及未经授权的隐私数据收集、处理或泄露,损害个人隐私权益;
  • 法律责任:模型功能滥用可能涉及违法行为,如侵犯知识产权、诽谤、诈骗等,从而引发法律责任问题;
  • 伦理道德问题:滥用模型功能可能产生不道德或伦理上有争议的结果,如生成虚假信息、误导公众、加剧社会不公等;
  • 信任危机:用户对AI系统的信任可能因为功能滥用而导致损害,这会影响AI技术的接受度和依赖度;
  • 经济损失:在商业环境中,模型功能滥用可能导致经济损失,如通过欺诈行为造成财务损失、破坏商业信誉等;

缓解措施

缓解方式 描述
输入/输出内容验证 通过算法或人工检查机制,识别和拦截生成的内容中可能包含的恶意或诱导性信息
AI检测工具 使用如M01系统等AI工具提高钓鱼邮件的检测率
安全意识培训 提高用户对钓鱼邮件的警觉性,教育他们识别可疑邮件的特征,如拼写错误、不寻常的语法、紧迫性的制造等
强化模型训练 基于人类反馈强化学习等方式,针对模型进行更严格的强化训练,以识别和抵御潜在的越狱攻击,增强模型应对对抗攻击的鲁棒性
模型安全对齐 提供多样化的训练数据,涵盖各种攻击场景,通过在模型训练阶段增加安全围栏机制,以增强模型的泛化能力和鲁棒性

参考