跳转至

AISS绿盟大模型安全智链社区

模型越狱攻击

模型越狱攻击

风险概览

风险编号：GAARM.0027
子风险：GAARM.0027.001、GAARM.0027.002、GAARM.0027.003、GAARM.0027.004、GAARM.0027.005、GAARM.0027.006
安全阶段：模型安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

“模型越狱攻击”（Model Jailbreaking Attack）是一种针对模型应用的常见攻击技术。这种攻击通常通过精心构造的输入（称为“越狱提示词”）来实现攻击，可以绕开大模型内部的安全对齐机制，进一步诱导模型输出训练数据、内部参数或者隐私数据等敏感信息。

攻击案例¶

具体见子风险攻击案例

攻击风险¶

数据泄露：攻击者可能通过越狱攻击获取模型背后的训练数据，尤其是敏感数据，如个人隐私信息、商业秘密等。
模型操控：攻击者可以操纵模型的输出，例如在决策支持系统中，可能导致错误的决策或恶意决策。
滥用服务：例如在付费的AI服务中，攻击者可能通过越狱攻击免费或以非正当方式使用服务。
信任破坏：越狱攻击可能破坏用户对AI模型的信任，从而影响模型的广泛应用。
系统破坏：在关键基础设施中，越狱攻击可能导致系统崩溃或功能异常，造成严重后果。

缓解措施¶

缓解方式	描述
强化模型训练	基于人类反馈强化学习等方式，针对模型进行更严格的强化训练，以识别和抵御潜在的越狱攻击，增强模型应对对抗攻击的鲁棒性
输入/输出验证	利用外部守卫对模型输入、输出的内容进行严格的审查与过滤，防止恶意提示词进入模型，以及模型输出非合规等内容信息
加强模型安全性	实施严格的访问控制措施，限制模型访问权限。确保只有授权人员能够访问模型，并监控其活动以及对模型的请求
安全监控与审计	监控模型的行为，以便快速检测和响应异常活动
定期模型安全评估与更新	定期这对模型开展安全评估工作，以快速发现并修复已知的漏洞和缺陷

参考¶