DeepSeek 系列模型详解之DeepSeek LLM

一、预训练

1. 数据

为了全面提升数据集的丰富性和多样性,将数据构建方法分为三个关键阶段:去重、过滤和混洗。

(1) 去重阶段

采用激进的去重策略,扩大去重范围。分析表明,对整个Common Crawl语料库进行去重比单独处理单个数据包更能有效去除重复实例。如表展示了在跨91个数据包进行去重时,消除的重复文档数量是单个数据包方法的4倍。

各种Common Crawl数据包的去重比率

(2) 过滤阶段

在过滤阶段,专注于制定用于文档质量评估的稳健标准。

(3) 混洗阶段

调整策略以解决数据不平衡问题,侧重于增加代表性不足领域的数据。

DeepSeek LLM基于分词器库(Huggingface)实现了字节级字节对编码(BBPE)算法。与GPT-2类似,采用预分词处理,以防止来自不同字符类别的(如换行符、标点符号和中日韩(CJK)字符)合并。

此外,将数字拆分为单个数字,且将词汇表中的常规标记数量设定为100000。该分词器在一个约24GB的多语言语料库上进行训练,并在最终词汇表中增加了15个特殊词元标记,使得词表总大小达到

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

奔向理想的星辰大海

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值