开源：DeepSeek-R1 蒸馏数据集（110k）_chinese-deepseek-r1-distill-data-110k-CSDN博客

开源：DeepSeek-R1 蒸馏数据集（110k）
🤗 Hugging Face | 🤖 ModelScope

开源在了 Hugging Face 和 ModelScope 上，有直接SFT使用的版本，可直接下载

https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k

https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k

本数据集为中文开源蒸馏满血R1的数据集，数据集中不仅包含math数据，还包括大量的通用类型数据，总数量为110K。

该中文数据集中的数据分布如下：
Math：共计36987个样本，
Exam：共计2440个样本，
STEM：共计12000个样本，
General：共计58573，包含弱智吧、逻辑推理、小红书、知乎、Chat等。

数据的prompt源来自：
Haijian/Advanced-Math
gavinluo/applied_math
meta-math/GSM8K_zh
EduChat-Math
m-a-p/COIG-CQIA
m-a-p/neo_sft_phase2
hfl/stem_zh_instruction

在蒸馏过程中，按照DeepSeek-R1官方提供的细节，进行数据蒸馏：
不增加额外的系统提示词
设置temperature为0.6

如果为数学类型数据，则增加提示词，“请一步步推理，并把最终答案放到 \boxed{}。”
防止跳出思维模式，强制在每个输出的开头增加"\n"，再开始生成数据

任务期间，保持稳定地运行300并发，支持64k上下文，32k输出长度，持续运行近12个小时，性能始终保持一致，数据可用性100%。测试时首token延时基本在500ms以下，推理速度最快25 tokens/s（需根据实际运行任务进行测试实际稳定性指标比较合理）。

最后，让我们对这项工作的作者刘聪NLP同学，给予致敬

引自：

https://mp.weixin.qq.com/s/OL1c7AZO1Nb0WsAQQ8H_sA?t=pages/image_detail&scene=1&sharer_shareinfo_first=bc721c04a8bae0b4cc03f7cd6d53033e&sharer_shareinfo=bc721c04a8bae0b4cc03f7cd6d53033e&from=industrynews&nwr_flag=1#wechat_redirect