跳转至

AISS绿盟大模型安全智链社区

模型功能滥用

模型功能滥用

风险概览

风险编号：GAARM.0031
子风险：GAARM.0031.001、GAARM.0031.002、GAARM.0031.003、GAARM.0031.004、GAARM.0031.005
安全阶段：模型安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

模型功能滥用，主要指的是攻击者在可控业务模型请求的情况下，盗用业务模型系统API，滥用业务大模型功能，完成实现攻击需求的非法，恶意操作，如恶意钓鱼邮件编写，恶意工具编写等。模型功能滥用一方面给业务系统带来了大量请求压力，一方面也存在业务合规风险。

攻击案例¶

具体见子风险攻击案例

攻击风险¶

安全风险：功能滥用可能导致模型执行恶意操作，如生成或传播有害内容、发起网络攻击、窃取敏感信息等，从而对用户和系统安全构成威胁；
隐私侵犯：滥用模型功能可能涉及未经授权的隐私数据收集、处理或泄露，损害个人隐私权益；
法律责任：模型功能滥用可能涉及违法行为，如侵犯知识产权、诽谤、诈骗等，从而引发法律责任问题；
伦理道德问题：滥用模型功能可能产生不道德或伦理上有争议的结果，如生成虚假信息、误导公众、加剧社会不公等；
信任危机：用户对AI系统的信任可能因为功能滥用而导致损害，这会影响AI技术的接受度和依赖度；
经济损失：在商业环境中，模型功能滥用可能导致经济损失，如通过欺诈行为造成财务损失、破坏商业信誉等；

缓解措施¶

缓解方式	描述
输入/输出内容验证	通过算法或人工检查机制，识别和拦截生成的内容中可能包含的恶意或诱导性信息
AI检测工具	使用如M01系统等AI工具提高钓鱼邮件的检测率
安全意识培训	提高用户对钓鱼邮件的警觉性，教育他们识别可疑邮件的特征，如拼写错误、不寻常的语法、紧迫性的制造等
强化模型训练	基于人类反馈强化学习等方式，针对模型进行更严格的强化训练，以识别和抵御潜在的越狱攻击，增强模型应对对抗攻击的鲁棒性
模型安全对齐	提供多样化的训练数据，涵盖各种攻击场景，通过在模型训练阶段增加安全围栏机制，以增强模型的泛化能力和鲁棒性

参考¶