Adversarial Demonstration Attacks on Large Language Models

最新推荐文章于 2025-07-08 16:54:44 发布

原创

最新推荐文章于 2025-07-08 16:54:44 发布 · 1.1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理 #攻防

提出advICL，操控示例demonstration不改变输入，误导模型。发现对抗性示例增加，icl的鲁棒性降低。

提出Transferable advICL，Transferable advICL生成的对抗示例可以攻击未见过的测试输入样例。

如图，标准攻击:仅操纵输入文本示例来执行攻击。

advICL攻击演示demonstration，而不操纵输入文本。

In-Context Learning

C（demonstration集）包含N个连接的数据标签对（xi, yi），特定模板s ，最优任务指令 I
C = {I, s(x1, y1), ..., s(xN , yN )}

f语言模型，Ytest 基于输入测试Xtest 和演示集C 生成，
ytest = fgenerate({C, s(xtest, _ )})

S （xtest, _）使用与演示demonstration相同的模板s，但ytest为空

（ytest集）label集Y = {c1，…， ck}。

函数V：将原始label ck映射为特定的令牌V（ck）。

如，V（positive）→positive

不是所有的标签

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

地中海～

关注关注

19
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【LLM安全】Privacy in Large Language Models: Attacks, Defenses and Future Directions（综述）

qq_43543209的博客

02-27

3818

SMPC协议优化( SMPC Protocol Optimization，SPO )是指利用先进的SMPC协议，在保持原有模型结构的同时，提升LLMs隐私保护推理的效率。隐私攻击的基本理念是，借助更强大的可访问性，攻击者有望恢复更多的敏感信息或获得对受害者LLMs更多的控制权。例如，在仅有黑盒模型访问的情况下，敌手可能会进行训练数据提取攻击，以恢复少量的训练数据。然而，保护LLMs隐私的一个主要挑战在于非线性操作所带来的限制，例如Softmax，GeLU，LayerNorm等，这些操作与SMPC不兼容。

Towards Adversarial Attack on Vision-Language Pre-training Models

Seaern的博客

02-16

1667

虽然视觉-语言预训练模型(VLP)在各种视觉-语言(V+L)任务上表现出革命性的改进，但关于其对抗鲁棒性的研究在很大程度上仍未被探索。本文研究了常用VLP模型和V+L任务的对抗性攻击。首先，我们分析了不同设置下对抗性攻击的性能。通过研究不同扰动对象和攻击目标的影响，我们总结出一些关键的观察结果，作为设计强健多模态对抗性攻击和构建鲁棒VLP模型的指导。其次，我们在VLP模型上提出了一种新的多模态攻击方法，称为协同多模态对抗攻击(Co-Attack)，它共同对图像模态和文本模态进行攻击。

参与评论您还未登录，请先登录后发表或查看评论

【LLM安全】Privacy in Large Language Models- Attacks, Defenses and Future Directions（综述）

xnxqwzy的博客

03-21

1389

在实际的渗透测试过程中，面对复杂多变的网络环境，当常用工具不能满足实际需求的时候，往往需要对现有工具进行扩展，或者编写符合我们要求的工具、自动化脚本，这个时候就需要具备一定的编程能力。隐私攻击的基本理念是，借助更强大的可访问性，攻击者有望恢复更多的敏感信息或获得对受害者LLMs更多的控制权。然而，保护LLMs隐私的一个主要挑战在于非线性操作所带来的限制，例如Softmax，GeLU，LayerNorm等，这些操作与SMPC不兼容。尽管如此，基于领域的LLMs应用的隐私和安全问题仍是一个未被探索的领域。

LLMs之Agent：Personal_LLM_Agents_Survey的简介、使用方法之详细攻略

01-17

2万+

LLMs之Agent：Personal_LLM_Agents_Survey的简介、使用方法之详细攻略目录 Personal_LLM_Agents_Survey的简介 Personal_LLM_Agents_Survey的使用方法 Personal_LLM_Agents_Survey的简介个人LLM代理(智能体)被定义为一种特殊类型的基于LLM的代理，它与个人数据、个人设备和个人服务深度集成。它们最好部署到资源受限的移动/边缘设备和

Universal Vulnerabilities in Large Language Models: In-context Learning Backdoor Attacks

步子哥的博客

01-13

1158

论文展示了ICLAttack方法在多种语言模型和不同规模的模型上的通用性，并强调了其隐蔽性，因为攻击过程中的示例标签是正确的，这被称为“干净标签”（clean-label），即使在插入触发器时也是如此。：与之前的方法不同，ICLAttack确保植入触发器的示范例子的标签是正确的，即使在植入触发器后也是如此。：通过在多个数据集上进行广泛的实验，论文验证了ICLAttack方法的有效性，攻击成功率平均达到了95.0%，这表明了在ICL范式下，大型语言模型存在普遍的脆弱性。

LLMs：《PaLM: Scaling Language Modeling with Pathways》翻译与解读

06-27

1万+

LLMs：《PaLM: Scaling Language Modeling with Pathways》翻译与解读目录《PaLM: Scaling Language Modeling with Pathways》翻译与解读 Abstract 1、Introduction介绍 2、Model Architecture模型架构 3、Training Dataset训练数据集 4、Training Infrastructure训练基础设施 5、Trai

论文学习（一）：Evaluating the Adversarial Robustness of Retrieval-Based In-Context Learning for LLMs

2301_81121202的博客

10-22

1065

2.作者简介。

（九：2020.08.27）CVPR 2019 追踪之论文纲要（译）

Jojo论文基地

08-28

9248

CVPR 2019 追踪之论文纲要（修正于2020.08.28）讲在前面论文目录讲在前面论坛很多博客都对论文做了总结和分类，但就医学领域而言，对这些论文的筛选信息显然需要更加精细的把控，所以自己对这900篇的论文做一个大致从名称上的筛选，希望能找到些能解决当前问题的答案。论文链接建议直接Google论文名，比去各种论文或顶会网站找不知道快捷多少。下面皆为机器翻译，我会慢慢修正，但现在请结合。有兴趣的可以问我要处理这些论文并自动翻译的脚本。 Respect！论文目录论文概要

【2011-2016】 NIPS汇总 - Advances in Neural Information Processing Systems

Testing的博客

10-02

1万+

Advances in Neural Information Processing Systems 24 (NIPS 2011) The papers below appear in Advances in Neural Information Processing Systems 24 edited by J. Shawe-Taylor and R.S. Zemel and P.L.

【CVPR2019】论文完整列表一

TomRen

06-11

1万+

CVPR 2019 Paper list[1-1000] CVPR2019 完整列表二论文题目与链接 Finding Task-Relevant Features for Few-Shot Learning by Category Traversal Edge-Labeling Graph Neural Network for Few-Shot Learning G...

Qwen3 Reranker模型可以微调吗？

weixin_43556377的博客

07-05

1175

Qwen3-Reranker支持LoRA/QLoRA高效微调，Apache-2.0许可商用。官方提供完整训练脚本（支持FP16/4-bit），推荐准备5-10万对正负样本，单卡可微调0.6B模型。微调后保留LoRA权重或合并部署，可显著提升专属知识库排序效果。进阶技巧包括多语言适配、RAG全链路优化和联合蒸馏等。开源代码见Qwen3-Embedding仓库，详细参数参考技术文档。

强化学习（10）蒙特卡洛

m0_69704099的博客

07-04

1307

如何在没有模型的情况下估计一些量？→ 蒙特卡洛。

AIGC与影视制作：技术革命、产业重构与未来图景

程序边界

07-08

1073

AIGC技术正在开启影视制作的“智能革命”。从北京国际电影节的创新实践到微短剧市场的爆发式增长，从央视的文化传承到好莱坞的工业化探索，AIGC已证明其在缩短制作周期、降低成本及拓展创意边界方面的核心价值。未来，随着技术迭代、法律完善与行业协同，AIGC必将成为影视工业数字化升级的核心驱动力，推动中国影视产业迈向全球价值链高端，实现从“影视大国”到“影视强国”的历史性跨越。参考文献北京国际电影节AIGC单元获奖作品分析报告《中国微短剧市场发展白皮书》（2023）

AI正在对硬件互连提出“过分”要求 | Samtec于Keysight开放日深度分享

SamtecChina2023的博客

07-08

683

是德科技解决方案工程师张晓指出，伴随AI智算网络硬件持续发展，用于算力芯片Scale-up网络机间互连的ACC（Active Copper Cable，有源铜缆）和AEC（Active Electrical Cable，有源电缆），以及应用于内存和存储池化的PCIe AOC（Active Optical Cable，有源光缆）愈发受到关注。，相比离散 SMA 通常可节省 4:1 的空间，其高密度能实现更小的评估板和更短的走线长度，极大地满足了芯片开发中的测试需求，为芯片的研发和优化提供了有力支持。

大型语言模型（LLM）的最新研究进展及相关新信息技术

ZJQ的博客

07-08

【零基础学AI】第29讲：BERT模型实战 - 情感分析

wiyi9891的专栏

07-07

865

摘要：本教程基于BERT模型实现情感分析任务，讲解微调预训练模型的核心流程。首先介绍BERT的双向编码优势及其在情感分析中的适用性，包括上下文理解和情感词捕捉能力。通过HuggingFace Transformers库，逐步演示数据加载（SST-2数据集）、BERT模型初始化、文本预处理（分词与格式化）以及训练配置（学习率2e-5、3轮训练）。代码涵盖完整训练评估流程，最终模型在验证集准确率达91.2%。还提供预测脚本、常见问题解答（如速度优化和准确率提升）及扩展练习建议。

无人机报警器探测模块技术解析

最新发布

YUNZHUO666的博客

07-08

697

建立和维护包含各种无人机型号的射频信号特征库、声学特征库、视觉特征库。在操作员界面上，通常会在电子地图上实时显示目标位置、航迹、速度矢量、类型标识和报警状态。视觉特征、可能型号、尺寸估计。根据防护区域的环境、预算、探测距离、精度要求、覆盖范围选择合适的传感器组合和部署方案。雷达杂波：建筑物、树木、车辆、鸟类等产生的地杂波和运动杂波，容易掩盖或误判为无人机。无线电：宽频带高速扫描、复杂电磁环境下的信号检测、信号特征提取、跳频信号跟踪。声学环境复杂：风声、车辆噪音、机械运转声、鸟叫等都可能被误判为无人机声音。

LibreChat：开源AI聊天平台的革新者

xiezhipu的博客

07-04

120

LibreChat是一个将多种AI模型集成在一起的聊天平台，它结合了OpenAI的ChatGPT等先进技术，同时融入了许多创新的功能。该项目的目标是为用户提供一个强大、安全且易于使用的AI对话环境，无论是个人开发者还是企业用户，都能从中受益。LibreChat以其丰富的功能、灵活的配置和活跃的开源社区，为用户提供了一个强大的AI聊天平台。无论是对于开发者来说，它是一个探索和实践AI技术的理想选择；对于普通用户来说，它是一个方便、实用的AI对话工具。

基于SpringBoot+Vue的高校心理健康服务平台（AI心理分析、websocket即时通讯）

paopaokaka_luck的博客

07-04

917

本文包含学生、心理老师和管理员三大角色功能模块。系统采用SpringBoot+Vue2技术架构，实现注册登录、心理测评、咨询服务、知识管理等功能。学生模块支持心理测评、在线咨询、预约管理；心理老师模块提供测评管理、咨询服务和数据分析；管理员模块涵盖用户管理、排班调度和内容审核。平台通过AI技术实现心理测评自动分析，采用WebSocket实现实时通讯，为高校师生提供全面的心理健康服务。

Universal and Transferable Adversarial Attacks on Aligned Language Models

02-28

### 对齐语言模型中的普遍且可转移对抗攻击研究与实现 #### 研究背景对齐的语言模型（LLM）在自然语言处理领域取得了显著进展，然而其安全性也受到了广泛关注。研究表明，在这些强大的模型中可能存在漏洞，使得恶意用户能够利用特定输入触发不期望的行为[^1]。 #### 攻击方法概述一种有效的策略被称为“普遍多提示和多模型攻击”，该技术旨在找到一组适用于多个不同架构下的预训练大模型的通用扰动向量。具体来说，采用了一种名为Greedy Coordinate Gradient-based Search (GCG) 的算法来寻找最优解路径，从而生成可以诱导目标模型给出肯定答复的对抗样例[^2]。 #### 实验验证为了证明所提方案的有效性，研究人员选择了两个开源大型语言模型——Viccuna-7B 和 LLaMA-2-7B-Chat 进行了一系列实验。结果显示 GCG 方法不仅能在单一实例上取得良好效果，而且当试图构建一个能作用于多种行为模式下所有受害者的统一提示时同样表现出色。特别是在行为测试集中获得了较高的攻击成功率(Attack Success Rate, ASR)，这表明此类模型内部确实存在着潜在的安全隐患[^3]。 #### 跨模型迁移能力分析除了考察单个模型内的性能外，还特别关注了由某一个源模型产生的对抗样本能否成功欺骗其他未见过的目标模型的能力。这种特性通常称为“非定向攻击”的迁移性。通过对比不同情况下得到的结果发现，较低的成功识别比例反而说明了更强的跨平台适用性和鲁棒性[^4]。 ```python def generate_adversarial_example(model, input_text): """ 使用GCG算法生成针对给定模型的对抗样本参数: model: 目标语言模型对象 input_text: 原始输入文本返回: adv_input: 经过微调后的对抗性输入文本 """ # 初始化参数... while not stop_condition_met(): # 计算梯度方向并更新候选词表... pass return final_adv_input if __name__ == "__main__": from some_library import load_model viccuna = load_model('viccuna') llama_chat = load_model('llama-chat') example_sentence = "The weather is nice today." adv_viccuna = generate_adversarial_example(viccuna, example_sentence) print(f"Adversarial Example for Viccuna: {adv_viccuna}") adv_llama = generate_adversarial_example(llama_chat, example_sentence) print(f"Adversarial Example for LLAMA Chat: {adv_llama}") ```

**Adversarial Demonstration Attacks on Large Language Models**

In-Context Learning

Adversarial Demonstration Attacks on Large Language Models