一文解锁DeepSeek大模型参数【671B、70B、32B、14B、8B、7B】

最新推荐文章于 2025-07-10 12:23:03 发布

原创

最新推荐文章于 2025-07-10 12:23:03 发布 · 4.1k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #神经网络 #DeepSeek #大模型

引言

大模型的参数是深度学习模型中的核心组成部分，它们决定了模型对输入数据的表示学习能力以及最终的预测或决策能力，即影响大模型“智商”的决定性因素！DeepSeek大模型参数【671B、70B、32B、14B、8B、7B】是什么以及啥作用，本文就来了解一下这些参数背后的原理！

一、模型参数含义

1.1、先从直线的数据表示y=ax+b讲起

一、模型参数含义

1.1、先从直线的数据表示y=ax+b讲起

下面的函数【y=ax+b】是一条直线的表达式（数据表示，一元一次方程），只要我们知道了其中的a，b值，我们就掌握了这条直线上所有点的分布特征（给出任何一个点的x坐标，就能很快推导算出对应的y值）。如果把这条直线的表达式【y=ax+b】称为模型，那么a和b就是这个模型的参数。

但是对于这个模型【y=ax+b】，一开始我们并不知道a和b的值，怎么得到这两个参数值呢？就需要先找一些点的坐标值来求解计算a和b，比如（-1，0），（0，2）两个点的值，分别带入到模型y=ax+b中。

通过两次计算可得到a的值是2，b的值也是2，这样就得到了这条直线（模型）的完整表达式：

y=2x+2

有了这个函数关系（模型），我们可以说掌握了这条线的规律！这样给出任何一个点的x坐标，就能很快推导算出对应的y值了。

1.2、模型参数定义

如果简单的把这个函数关系：【y=ax+b】看作是大模型的话，那么：

模型参数：a和b就是这个模型的参数（称为parameter）。【a称为神经网络的权重（weights），b称为偏置（biases）。参数是模型从输入数据中提取特征、建立映射关系的关键变量。它们直接影响模型的表现能力，包括对复杂数据的理解、泛化能力以及任务执行的准确性。】
模型训练：就是拿一些数据（多个点的坐标，像上面的（-1，0），（0，2）两个点的值）计算a和b值的过程；【参数是深度学习模型中可训练的部分，这些参数在训练过程中通过优化算法（如梯度下降）不断更新，以最小化损失函数。】
推理过程：就是已经知道a和b的基础上，给出任意一个点的x坐标，推算对应y值的过程；

这个只是最简单的“模型”，如果再复杂一点，把维度扩一下，曲线的数据表示就变成了下面的形式，变量增多了、参数也相应的增多了（由a，b变成了a，b，c）。

为了更好的模拟表示现实世界的事物，比如文字、图片、音频、视频等，那么就需要更多的参数，DeepSeek R1 最大的版本是671B，这个B是十亿（billion）的意思，也就是它有6710亿个参数（也就是常说的“满血版”），数学表达形式也更复杂，但是大模型从训练到推理使用的逻辑没有变。训练过程仍然是使用一些数据（称为大模型数据集DataSets）投喂给大模型，计算出很多的参数的值；推理过程就是给大模型一个问题，大模型计算后给出我们想要的答案（由于参数量太大和大模型的一些特殊机制，有些时候计算出的结果可能和我们想要的答案会有一些偏差）。