非合规内容输出

风险概览

风险编号：GAARM.0029
子风险：GAARM.0029.001、GAARM.0029.002、GAARM.0029.003、GAARM.0029.004、GAARM.0029.005、GAARM.0029.006
安全阶段：模型安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

大模型非合规内容输出指的是，攻击者通过精心构造包含恶意的输入内容或利用模型自身存在的安全漏洞等不良手段，诱导大型语言模型（LLM）产生异常或不合逻辑的输出，例如，在生成文本、图片或其他形式数据时，诱使LLM违背相关的法律法规、社会道德标准或企业内部规定，产生不恰当或违法的内容。这种内容可能包含虚假信息、歧视性言论、不当的意识形态倾向、侵犯版权的内容等。这类攻击不仅可能导致模型结果偏离预期，还可能对模型的整体安全性和信赖度造成严重威胁。

攻击案例¶

案例	描述
案例一	攻击者通过prompt注入绕过ChatGPT安全机制，让其输出违法犯罪等恶意信息
案例二	使用奶奶漏洞，来让LLM输出制作固体汽油弹的步骤
案例三	使用奶奶漏洞，来让LLM输出恶意程序的源代码
案例四	介绍了一种新的MLLM越狱方式，利用大语言模型生成高风险字符的详细描述，并根据描述创建相应的图像。当与良性角色扮演指导文本配对时，这些高风险角色图像有效地误导mllm通过设置具有负面属性的角色来产生恶意响应，引入不良的倾向
案例五	研究员通过Prompt目标劫持攻击，命令LLM无论用户接下来输入什么都输出赞同，使用1美元购买了一辆2024款雪佛兰Tahoe。
案例六	该研究发现，通过将越狱提示与 CoT 提示相结合，利用 CoT 绕过 LLM 的道德限制，可以导致模型生成私人信息

攻击风险¶

数据完整性受损：非合规内容输出可能损害数据的完整性，使得模型无法正确解释或处理输入数据，从而影响模型对数据的分析和处理。
用户决策误导：非合规内容输出可能导致模型产生错误的推断或分类结果，从而误导用户或决策者做出错误的决策，影响系统的正常运行和应用。
安全机制绕过：攻击者可能利用模型的安全机制缺陷，通过特定的输入手段（如提示词注入）绕过安全检查，导致模型执行非预期的操作或输出敏感信息。

缓解措施¶

缓解方式	描述
数据预处理和清洗	在模型训练之前，对数据进行彻底的预处理和清洗，以识别和排除异常或不准确的数据
对抗训练	将对抗样本纳入模型训练过程，以提高模型对于潜在攻击的抵抗力
模型正则化	通过正则化技术限制模型复杂度，减少过拟合，提高模型泛化能力，从而降低对误导性数据的敏感性
模型安全对齐	针对性的对模型采取模型安全对齐措施，强化模型对于技术、法律、伦理、社会等跨学科理解，确保模型的行为符合社会伦理以及法律法规
输入/输出内容验证	实施自动化的内容过滤系统，用于检测和阻止模型生成的潜在有害或不当内容
外部数据源安全	对外部数据源进行安全评估和监控，确保提供给模型的数据是可靠和安全的，防止外部信息投毒

参考¶

https://mp.weixin.qq.com/s/2bm7nuXkORLZ20mfpOmwrA