Embedding改进CBOW

本文探讨了在词汇量为100万的CBOW模型中,由于one-hot表示和权重矩阵乘法以及Softmax计算导致的时间消耗问题。提出使用Embedding层来解决这些问题,通过直接提取权重矩阵的特定行来减少内存占用和计算时间。在正向传播和反向传播过程中,Embedding层能有效传递信息和更新梯度,提高模型训练效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

假设词汇量为 100 万个时的 CBOW 模型如下,输入层和输出层存在 100 万个神经元。

下面两个问题导致耗时严重。

问题一、输入层的 one-hot 表示和权重矩阵的乘积。one-hot 表示占用内存过多,计算 one-hot 表示与权重矩阵 的乘积,需要花费大量时间。

问题二、中间层和权重矩阵的乘积以及 Softmax 层的计算。需要大量的计算,花费大量时间。

在这里插入图片描述

解决问题一:

计算one-hot 表示矩阵和权重矩阵的乘积,其实就是将权重矩阵的某个特定的行取出来。如下图所示。

在这里插入图片描述

Embedding 层:一个从权重矩阵中抽取单词ID对应行(向量)的层。

使用 params 和 grads 作为成员变量,params中保存要学习的参数,grads中保存梯度。并在成员变量 idx 中以数组的形式保存需要提取的行的索引(单词ID)。

正向传播:从权重矩阵W中提取特定的行,并将特定行的神经元原样传给下一层。

反向传播:上一层(输出侧的层)传过来的梯度将原样传给下一层(输入侧的层)。上一层传来的梯度会被应用到权重梯度dW

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

每天学点

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值