引言
大模型的参数是深度学习模型中的核心组成部分,它们决定了模型对输入数据的表示学习能力以及最终的预测或决策能力,即影响大模型“智商”的决定性因素!DeepSeek大模型参数【671B、70B、32B、14B、8B、7B】是什么以及啥作用,本文就来了解一下这些参数背后的原理!
目录
一、模型参数含义
1.1、先从直线的数据表示y=ax+b讲起
下面的函数【y=ax+b】是一条直线的表达式(数据表示,一元一次方程),只要我们知道了其中的a,b值,我们就掌握了这条直线上所有点的分布特征(给出任何一个点的x坐标,就能很快推导算出对应的y值)。如果把这条直线的表达式【y=ax+b】称为模型,那么a和b就是这个模型的参数。
但是对于这个模型【y=ax+b】,一开始我们并不知道a和b的值,怎么得到这两个参数值呢?就需要先找一些点的坐标值来求解计算a和b,比如(-1,0),(0,2)两个点的值,分别带入到模型y=ax+b中。
通过两次计算可得到a的值是2,b的值也是2,这样就得到了这条直线(模型)的完整表达式:
y=2x+2
有了这个函数关系(模型),我们可以说掌握了这条线的规律!这样给出任何一个点的x坐标,就能很快推导算出对应的y值了。
1.2、模型参数定义
如果简单的把这个函数关系:【y=ax+b】看作是大模型的话,那么:
- 模型参数:a和b就是这个模型的参数(称为parameter)。【a称为神经网络的权重(weights),b称为偏置(biases)。参数是模型从输入数据中提取特征、建立映射关系的关键变量。它们直接影响模型的表现能力,包括对复杂数据的理解、泛化能力以及任务执行的准确性。】
- 模型训练:就是拿一些数据(多个点的坐标,像上面的(-1,0),(0,2)两个点的值)计算a和b值的过程;【参数是深度学习模型中可训练的部分,这些参数在训练过程中通过优化算法(如梯度下降)不断更新,以最小化损失函数。】
- 推理过程:就是已经知道a和b的基础上,给出任意一个点的x坐标,推算对应y值的过程;
这个只是最简单的“模型”,如果再复杂一点,把维度扩一下,曲线的数据表示就变成了下面的形式,变量增多了、参数也相应的增多了(由a,b变成了a,b,c)。
为了更好的模拟表示现实世界的事物,比如文字、图片、音频、视频等,那么就需要更多的参数,DeepSeek R1 最大的版本是671B,这个B是十亿(billion)的意思,也就是它有6710亿个参数(也就是常说的“满血版”),数学表达形式也更复杂,但是大模型从训练到推理使用的逻辑没有变。训练过程仍然是使用一些数据(称为大模型数据集DataSets)投喂给大模型,计算出很多的参数的值;推理过程就是给大模型一个问题,大模型计算后给出我们想要的答案(由于参数量太大和大模型的一些特殊机制,有些时候计算出的结果可能和我们想要的答案会有一些偏差)。
DeepSeek 大模型幻觉率内容参看:一文搞明白DeepSeek超高幻觉率及解决思路【4000+字】【小白也能看懂学会】【含实用操作指南】_幻觉率是什么-CSDN博客
其实可以把大语言模型中的参数,理解成我们人脑中的神经元。正如人脑中神经元的数量和连接的复杂性决定了个体的认知水平,大语言模型中参数的数量和互联程度也决定了模型学习和处理信息的能力。
但是需要明确的是,参数量并不直接等同于“智能水平”,而是模型强大学习能力的基础。参数量越多,模型对数据模式的捕捉能力越强,能够识别更复杂的上下文和语言关系。例如,GPT-3 拥有 1750 亿个参数,这