- code: https://github.com/huizhang-L/CodeChameleon
CodeChameleon: Personalized Encryption Framework for Jailbreaking Large Language Models
Huijie Lv, Xiao Wang, Yuansen Zhang, Caishuang Huang, Shihan Dou, Junjie Ye, Tao Gui, Qi Zhang, and Xuanjing Huang. 2024. Codechameleon: Personalized encryption framework for jailbreaking large language models. CoRR, abs/2402.16717.
Abstract
对抗性滥用,特别是通过“越狱”绕过模型的安全和伦理协议,对大型语言模型(LLM)构成了重大挑战。本文深入探讨了此类成功攻击背后的机制,提出了一个关于对齐的LLM的安全机制假设:意图安全识别后跟响应生成。基于这一假设,我们提出了CodeChameleon,这是一个基于个性化加密策略的新型越狱框架。为了躲避意图安全识别阶段,我们将任务重新表述为代码补全格式,使用户能够使用个性化加密函数加密查询。为了保证响应生成功能,我们在指令中嵌入了解密函数,这使得LLM能够成功解密并执行加密的查询。我们在7个LLM上进行了广泛的实验,实现了最先进的平均攻击成功率(ASR)。值得注意的是,我们的方法在GPT-4-1106上实现了86.6%的ASR。代码可在https://github.com/huizhang-L/CodeChameleon找到。
1 Introduction
大型语言模型(LLMs)(Touvron 等人,2023;OpenAI,2023)展现了先进的通用能力,并通过基于人类反馈的对齐来确保响应的安全性(Ouyang 等人,2022;Zheng 等人,2023)。然而,LLMs 仍然容易受到一些对抗性攻击,例如“越狱”(Li 等人,2023a;Liu 等人,2023c)。目前,主要有三种类型的越狱方式。人类设计的越狱(Li 等人,2023a;Wei 等人,2023)通常从语义角度出发,利用人类的智慧来精心设计提示词。基于优化的越狱(例如,GCG(Zou 等人,2023),AutoDAN(Liu 等人,2023a),PAIR(Chao 等人,2023))通过在白盒或黑盒 LLMs 上进行优化,生成能够诱导 LLMs 无拒绝地做出回应的对抗性提示词。基于长尾分布编码的越狱将原始查询转化为 Base64(Wei 等人,2023)、密码(Yuan 等人,2023)或低资源语言(Deng 等人,2023)等格式。受基于长尾的方法(Wei 等人,2023;Deng 等人,2023)的启发,我们提出了一个关于对齐的 LLMs 的安全机制假设:首先,检测查询中潜在的恶意意图(意图安全识别),其次,根据查询的感知意图生成响应。为了成功绕过这些防护措施,攻击方法必须在绕过意图识别阶段的同时,确保 LLM 准确理解并执行查询。 基于上述假设,我们提出了 CodeChameleon,这是一个利用个性化加密方法的新型越狱框架。为了躲避意图安全识别阶段,CodeChameleon