DeepSeek-R1-Distill-Qwen-1.5B模型结构
时间: 2025-03-02 07:19:40 浏览: 183
### DeepSeek-R1-Distill-1.5B 模型架构和参数详情
DeepSeek-R1-Distill-Qwen-1.5B 是一种基于Transformer架构的语言模型,该模型经过蒸馏处理,在保持性能的同时减少了计算资源的需求。此模型具有约15亿个参数[^1]。
#### 架构特点
- **多层编码器**:采用标准的Transformer编码器堆叠方式构建,每一层都包含了自注意力机制(self-attention mechanism),能够捕捉输入序列中的长期依赖关系。
- **前馈神经网络(FFN)**:每个多头自注意模块后面连接着两个线性变换组成的简单全连接层,即所谓的前馈子层。
- **残差链接与Layer Normalization**:为了缓解深层网络训练困难的问题,引入了跳跃连接(residual connections)以及层归一化(layer normalization),有助于加速收敛并提高泛化能力。
#### 参数配置
- **隐藏单元数(Hidden Size)**:768维向量表示每个位置上的token embedding和其他特征embeddings之和的结果空间维度大小。
- **层数(Layers)**:总共由24个相同的transformer blocks组成。
- **头部数量(Heads)**:在multi-head self attention部分设置了12个独立的工作头来平行工作,从而增强表达力。
- **最大长度(Max Position Embedding Length)**:支持的最大输入文本长度设定为1024 tokens。
- **激活函数(Activation Function)**:使用GELU作为非线性的激活组件。
```python
from transformers import AutoConfig
config = AutoConfig.from_pretrained("DeepSeek-R1-Distill-1.5B")
print(f"Hidden size: {config.hidden_size}")
print(f"Number of layers: {config.num_hidden_layers}")
print(f"Attention heads: {config.num_attention_heads}")
print(f"Max position embeddings length: {config.max_position_embeddings}")
```
阅读全文
相关推荐


















