跳转至

概念激活攻击

风险概览

风险编号:GAARM.0027.006
风险归属:GAARM.0027
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01

攻击概述

该攻击方式主要针对开源的LLMs,旨在识别和操控模型对特定概念的响应。尽管开源的LLMs在发布之前会经过安全对齐,和严格的安全审查,但是几乎不可能对其进行完全的审查,仍然存在安全风险。用户可以获取开源LLMs模型的所有细节,针对其底层原理挖掘出可能存在的安全漏洞。通过构建有害和无害输入,从前向传播中提取激活向量,推理过程中通过激活向量扰动中间层输出,绕过LLMs安全机制实现越狱攻击。

攻击案例

案例 描述
案例一 利用概念激活攻击对开源的Llama模型进行越狱,成功让模型输出有害内容。

攻击风险

  • 数据泄露:攻击者可能通过越狱攻击获取模型背后的训练数据,尤其是敏感数据,如个人隐私信息、商业秘密等。
  • 模型操控:攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。
  • 信任破坏:越狱攻击可能破坏用户对AI模型的信任,从而影响模型的广泛应用。
  • 生成毒害内容: 攻击者可以通过越狱攻击,让LLMs生成暴力,歧视,侮辱等有害内容。
  • 系统破坏:在关键基础设施中,越狱攻击可能导致系统崩溃或功能异常,造成严重后果。

缓解措施

缓解方式 描述
增强安全训练 加强LLM的安全对齐训练,以更好地抵抗基于概念的攻击
定期更新 持续使用新数据和安全措施更新模型,以适应新出现的威胁
健壮的评估指标 开发更全面的评估技术,准确评估模型对这类攻击的脆弱性

参考