大型语言模型DeepSeek-R1中强化学习与监督微调在AI安全性方面的对比与优化资源-CSDN下载

多语言处理

55 浏览量 2025-02-20 17:01:03 上传评论收藏 231KB PDF 举报

资源推荐

资源详情

资源评论

a

r

X

i

v

:

2

5

0

1

.

1

7

0

3

0

v

1

[

c

s

.

L

G

]

2

8

J

a

n

2

0

2

5

确保DeepSeek-R1模型中AI安全性的挑战：强化学习策略

的不足

Manojkumar Parmar, Yuvaraj Govindarajulu AIShield（

由博世驱动）班加罗尔 {manojkumar.parmar, govindarajulu.yuvar

aj}@bosch.com

摘要

大型语言模型（LLMs）在推理、对齐和特定任务性能方面取得了显著进展。然而，在这些

系统中确保无害性仍然是一个关键挑战，特别是在像DeepSeek-R1这样的高级模型中。本文

检查了作为减少DeepSeek-R1有害输出的主要方法的强化学习（RL）的局限性，并将其与监

督微调（SFT）进行了比较。虽然RL提高了推理能力，但它面临着奖励欺骗、泛化失败、语

言混合和高计算成本等挑战。我们提出了结合RL和SFT的混合训练方法，以实现稳健的无害

性降低。还提出了使用DeepSeek-R1时的使用建议和未来部署方向。

K关键词 AI 安全 · 大语言模型 (LLMs) · DeepSeek-R1 · 监督微调 · 无害性降低

1 引言

大型语言模型（LLMs）在解决复杂的推理任务、处理自然语言理解和生成连贯输出方面展现出了显著的能

力。DeepSeek-R1是一种先进的推理模型，旨在推动LLM性能的极限[1]。它基于强化学习（RL）和多阶段

训练构建，代表了提高模型推理能力、无害性和与人类偏好一致性的重大进步[2]。

LLMs在教育、软件开发和决策等关键领域的日益采用突显了模型不仅需要具有高度能力，而且还要与用户

意图一致并且使用安全的重要性。尽管推理和一致性技术取得了进展，但在确保像DeepSeek-R1这样的模型

无害、可读并且能够很好地推广到未见场景方面仍存在关键挑战。

本文探讨了基于RL的方法在DeepSeek-R1模型无害化减少方面的局限性，并将其与监督微调（SFT）进行了

比较。它强调了需要混合方法来有效解决对齐和安全挑战。

1.1 背景

DeepSeek-R1采用从人类反馈中学习的强化学习（RLHF）来增强推理能力，并使输出与用户定义的偏好保

持一致。训练流程整合了多个阶段，包括：

• 强化学习：为了提高推理能力和一致性[3]。

• 监督微调（SFT）：为了提供对齐、可读性和无害性的基线[4]。

• 蒸馏：将模型的推理能力转移到更小、更高效的变体中[5]。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余8页未读，立即下载

内容反馈

知识小报童

粉丝: 352

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip