一、预训练
1. 数据
为了全面提升数据集的丰富性和多样性,将数据构建方法分为三个关键阶段:去重、过滤和混洗。
(1) 去重阶段
采用激进的去重策略,扩大去重范围。分析表明,对整个Common Crawl语料库进行去重比单独处理单个数据包更能有效去除重复实例。如表展示了在跨91个数据包进行去重时,消除的重复文档数量是单个数据包方法的4倍。
各种Common Crawl数据包的去重比率
(2) 过滤阶段
在过滤阶段,专注于制定用于文档质量评估的稳健标准。
(3) 混洗阶段
调整策略以解决数据不平衡问题,侧重于增加代表性不足领域的数据。
DeepSeek LLM基于分词器库(Huggingface)实现了字节级字节对编码(BBPE)算法。与GPT-2类似,采用预分词处理,以防止来自不同字符类别的(如换行符、标点符号和中日韩(CJK)字符)合并。
此外,将数字拆分为单个数字,且将词汇表中的常规标记数量设定为100000。该分词器在一个约24GB的多语言语料库上进行训练,并在最终词汇表中增加了15个特殊词元标记,使得词表总大小达到