腾讯云DeepSeek模型训练与数据处理技术深度解析

PDF文件

6.14MB | 更新于2025-03-20 | 119 浏览量 | 举报收藏

立即下载

文档详细介绍了DeepSeek模型的特点、模型训练、数据处理等方面的技术细节。DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的大语言模型，该公司的成立得到了知名私募巨头幻方量化的支持。DeepSeek致力于开发和应用先进的大语言模型技术，以提供聪明且低成本的AI深度思考服务。在模型训练方面，DeepSeek存在上下文长度限定和回答输出内容的token化问题。训练前需要将文本进行处理，比如切割成为Token等。目前AI大模型的记忆力有限，长度有限，无法一次性完成长文的训练。例如，DeepSeek R1版本的基本单元是Token，其上下文长度限定为64k~128k个英文单词或大约3万~4万字的中文。因此，如果一次性投喂太长的文档给AI模型，是无法一次性完整读完并获取或验证信息的。在数据处理方面，需要对数据进行大量清洗、监督微调、反馈强化学习等。对于之后的新闻、事件变化、新事物等，AI大模型无法直接回答正确，需要通过多次输入、或者拆解后多次调用API等办法解决。例如，对于长文翻译类任务，可以将长文拆解后，多次调用API进行翻译解决。在AI模型的应用上，DeepSeek提供联网搜索功能，可以补充说出答案或者采用提示词的方式进行。" 知识点详解: 1. 模型训练优化: - 上下文长度限定：指的是大语言模型在处理文本时，所能理解和记忆的上下文范围是有限的。这通常以token的数量来衡量。例如，DeepSeek R1版本可以处理的上下文长度为64k~128k token。 - 训练前的文本处理：模型训练前需要对文本数据进行预处理，如分词（Tokenization），即将文本切割成模型能够识别的最小单位。 - 大模型的token化存在endtime：由于模型的处理能力有限，长篇幅的文本可能需要分多次进行处理，无法一次性完成。 - 记忆力有限：长模型由于其计算和存储的限制，无法记住长篇幅的细节，只能记住部分内容。 2. 数据处理技术: - 清洗（Data Cleaning）：移除数据集中的噪声和无关数据，提高数据质量。 - 监督微调（Supervised Fine-tuning）：使用少量标注数据对预训练模型进行进一步训练，使之更好地适应特定任务。 - 反馈强化学习（Feedback Reinforcement Learning）：通过用户的反馈不断优化模型性能。 3. 模型应用: - 联网搜索功能：DeepSeek模型可以利用网络资源进行搜索，以补充知识库或进行问题解答。 - 多次输入：对于超出模型处理能力的任务，可以通过多次输入的方式来进行。 - API调用：在处理复杂或超长文本时，可以采用API分段处理的方法。 - 模块化推理：DeepSeek R1推出的推理模块允许AI处理超长文本，尽管是分多次完成。 4. 模型的局限性: - 无法一次性理解长文：当前大模型无法一次性理解并输出长篇幅的完整信息，需要将长文分解成多个部分进行处理。 - 对新知识和事件的反应能力有限：大模型在面对新出现的事件或知识时，其反应和处理能力存在局限，需要后期的人为干预和调整。综上所述，DeepSeek模型训练优化及数据处理涉及到的不仅仅是模型架构和算法的优化，还包括了数据的预处理、模型训练后的微调和用户的互动反馈。虽然大模型具备一定的优势，但其在应对长文处理和实时更新知识方面仍面临挑战，需要通过技术手段进行优化和调整。

MLA多层注意力架构

• 原先：每一层有值且内存挨个计算

• 优化：前后合并，使用时再放到内存中

FP8混合精度训练框架

• 原先：32位、16位

• 优化：

• 不该精确8位(近似值)，需要精确还是32位

• 每128个位，交给会计总账合计保证精度

Point1:

大大压缩计算量

DualPipe 跨节点通信

• 原先：需要等前面stage完成才能干活

• 优化：优化为双路计算流水线，传输、计算同时进行

• 计算+50%、传输+20%

无辅助损失的负载均衡策略

• 原先：每个worker干活一样

• 优化：均衡派单，保证worker有活干

跨节点全对全通信内核

Point2:

分布式并行提效

Point3:

模型大、数全、偏科

模型够大参数多

• Llama3.1： 405 B

• Deepseek：671 B

数据全且精

• 优化：精选数据、清洗干净

MTP技术（Multi-Token Prediction 多令牌预测）

• 传统：一次预测一个Token

• 优化：预测连续多个Token

R1蒸馏技术

• R1推理模型，给出计算逻辑推理

• V3提取推理思路+解题策略

• 用大模型指导小模型训练，降低推理成本

DeepSeek 核心哪些创新大幅降低训练成本

剩余22页未读，继续阅读

银行金融科技

粉丝: 3568

腾讯云DeepSeek模型训练与数据处理技术深度解析

最新资源