论文主要内容总结
- 研究背景与问题
- 大语言模型(LLMs)在自然语言处理任务中表现卓越,但存在生成有害内容或被恶意利用的风险。
- 现有安全对齐数据集通过监督微调(SFT)缓解风险,但存在关键缺陷:仅关注词汇多样性,忽略恶意意图和越狱策略的覆盖,导致模型在面对复杂攻击时防御能力不足。
- 核心方法与框架
- 三维风险分析框架:从词汇多样性、恶意意图、越狱策略三个维度系统评估对齐数据集的风险覆盖。
- TRIDENT自动化流水线:利用基于 persona 的零样本LLM生成多样化指令,结合安全LLM(如GPT-4O-MINI)生成道德响应,构建数据集。
- 数据集构建:
- TRIDENT-CORE:26,311个样本,聚焦词汇和恶意意图多样性。
- TRIDENT-EDGE&#