恶意代码生成

风险概览

风险编号：GAARM.0031.001
风险归属：GAARM.0031
安全阶段：模型安全
生命周期：应用阶段
创建时间：2024.05.01
修改时间：2024.05.01

攻击概述¶

模型存在恶意代码生成风险，这意味着攻击者可能利用模型的能力来生成或构造具有破坏性的代码，例如病毒、木马、勒索软件等。还可能导致导致系统被入侵、数据泄露或服务中断，对安全性和隐私构成严重威胁。此外，恶意代码的生成还可能被用来绕过安全检测系统，使得传统的安全防护措施变得无效。

案例	描述
案例一	攻击者利用越狱的方式使用ChatGPT编写dll劫持、暴力破解等恶意软件
案例二	攻击者利用越狱攻击让ChatGPT编写SSH爆破软件
案例三	基于GPT-4构建一个黑客智能体，能够在阅读CVE漏洞描述后，学会利用漏洞进行攻击
案例四	通过调用API的手段绕过安全限制，编写注入程序的代码
案例五	德国黑客的钓鱼邮件中，脚本内容表明 TA547 有可能使用了生成式人工智能来编写或改写 PowerShell 脚本
## 攻击风险
- 恶意软件生成：攻击者可能利用AI生成的恶意代码来创建定制的恶意软件，这些软件专门设计用于绕过现有的安全防护措施。
- 增加网络攻击风险：通过编译生成的恶意代码，攻击者可以对公司、个人以及政府机构发起网络攻击，导致数据泄露、服务中断或财产损失。

缓解措施	描述
输入/输出验证	对输入输出进行预处理和过滤，删除任何不当或有害内容。在输入或输出中查找特定字符串或敏感数据，并根据此拒绝输入或响应。我们可以使用这些来防止特定已知的恶意输入传递到LLM或防止已知的机密信息返回给用户
外部守卫模型	使用另一个模型来评估输入或响应是否可接受，例如传统的 ML 分类器。