Embedding层梯度幅值较高的原因分析 1. Embedding层梯度计算 vs 全连接层梯度表达式 Embedding层作为查找表的梯度计算: 在NLP模型中,Embedding层通常以one-hot向量作为输入,将离散的词ID映射为连续向量。 本质上,Embedding层等价于一个输入为one-hot的全连接层。 设词汇表大小为NNN,嵌入维度为dd