模拟对话攻击

风险概览

风险编号：GAARM.0054
子风险：无
安全阶段：身份安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.08.08

攻击概述¶

该风险是指攻击者通过要求模型扮演两个角色进行互动，将恶意目的隐蔽地分散在对话中，从而降低模型对恶意意图的检测能力，并使内容过滤规则难以识别出分散在不同语句中的恶意内容。总而言之，LLM可以被设计来模拟人类对话，诱骗个人泄露敏感信息或执行未经授权的操作。

案例一：让LLM在模拟对话的过程成输出毒害信息。

缓解方式	描述
输入/输出验证	实施严格的输入验证机制，过滤和清理传入的提示词。包括检查和阻止任何包含潜在有害指令或可疑模式的输入
外部守卫模型	实施异常检测算法，识别异常的提示词模式，实时发现提示注入攻击尝试，并触发保护措施
模型安全对齐	提供多样化的训练数据，涵盖各种攻击场景，通过在模型训练阶段增加安全围栏机制，以增强模型的泛化能力和鲁棒性
应用提示词增强	在构建初始提示词阶段，从内容与结构增面对提示词实施增强，以应对后续的攻击行为