Bootstrapping LLM Robustness for VLM Safety via Reducing the Pretraining Modality Gap

论文主要内容与创新点总结

主要内容
  1. 研究背景与问题:视觉语言模型(VLM)在部署时需确保输出安全,但其安全性较语言模型(LLM)骨干显著下降。即使是空白或无关图像,也可能触发VLM生成有害响应,这与图像和文本表示的“模态差距”有关。现有研究虽假设模态差距影响VLM安全性,但未明确其影响机制及程度。
  2. 核心发现
    • 模态差距与VLM的不安全率呈强负相关,即模态差距越大,模型越容易生成有害响应。
    • 模态差距在预训练阶段形成,并在微调过程中持续存在,是导致VLM安全性下降的关键因素。
  3. 方法:REGAP:提出预训练正则化方法,通过缩小图像和文本标记嵌入的模态差距,增强VLM的安全对齐。该方法在预训练阶段引入基于L2距离的正则化损失,不依赖额外安全数据、不修改模型结构,且计算开销可忽略。
  4. 实验结果:在LLaVA v1.5、ShareGPT4V、MiniGPT-4等模型上,REGAP最多可降低16.3%的不安全率,且与现有防御方法结合时提升效果可达18.2%。同时,模型在问答、推理等常规任务上的性能未受影响。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值