https://arxiv.org/abs/2501.12948
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
红色字体代表在最后一章:知识点补充,有详细讲解
文章目录

图 1:DeepSeek-R1 的基准性能
Abstract
论文介绍了两种新型的推理模型:DeepSeek-R1-Zero 和 DeepSeek-R1。这些模型的核心创新点是通过 强化学习(Reinforcement Learning, RL) 来提升大型语言模型ÿ