Embedding改进CBOW

最新推荐文章于 2024-08-15 10:25:10 发布

每天学点

最新推荐文章于 2024-08-15 10:25:10 发布

阅读量949

点赞数

CC 4.0 BY-SA版权

分类专栏：学习笔记文章标签： CBOW

请勿用于任何商业用途；转载的话请加上我的地址；

本文链接：https://blog.csdn.net/qq_40828914/article/details/122592289

学习笔记同时被 2 个专栏收录

112 篇文章 ¥39.90 ¥99.00

订阅专栏

37 篇文章

订阅专栏

本文探讨了在词汇量为100万的CBOW模型中，由于one-hot表示和权重矩阵乘法以及Softmax计算导致的时间消耗问题。提出使用Embedding层来解决这些问题，通过直接提取权重矩阵的特定行来减少内存占用和计算时间。在正向传播和反向传播过程中，Embedding层能有效传递信息和更新梯度，提高模型训练效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

假设词汇量为 100 万个时的 CBOW 模型如下，输入层和输出层存在 100 万个神经元。

下面两个问题导致耗时严重。

问题一、输入层的 one-hot 表示和权重矩阵的乘积。one-hot 表示占用内存过多，计算 one-hot 表示与权重矩阵的乘积，需要花费大量时间。

问题二、中间层和权重矩阵的乘积以及 Softmax 层的计算。需要大量的计算，花费大量时间。

在这里插入图片描述

解决问题一：

计算one-hot 表示矩阵和权重矩阵的乘积，其实就是将权重矩阵的某个特定的行取出来。如下图所示。

在这里插入图片描述

Embedding 层：一个从权重矩阵中抽取单词ID对应行(向量)的层。

使用 params 和 grads 作为成员变量，params中保存要学习的参数，grads中保存梯度。并在成员变量 idx 中以数组的形式保存需要提取的行的索引(单词ID)。

正向传播：从权重矩阵W中提取特定的行，并将特定行的神经元原样传给下一层。

反向传播：上一层(输出侧的层)传过来的梯度将原样传给下一层(输入侧的层)。上一层传来的梯度会被应用到权重梯度dW

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

每天学点 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。