读ELMO文章

最新推荐文章于 2023-11-21 20:36:18 发布

huangqihao723

最新推荐文章于 2023-11-21 20:36:18 发布

阅读量243

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：深度学习 elmo

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huangqihao723/article/details/106099775

深度学习专栏收录该内容

20 篇文章

订阅专栏

ELMo模型，即从语言模型中学习词向量，解决了传统word2vec模型中词向量单一的问题，通过双向LSTM考虑上下文语境，实现词义的动态表示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

全称是Embeddings from Language Models，从语言模型中学习到词向量。word2vec训练出的词向量有一个问题，一个词只有一个embbeding，实际上一个词会有多个含义，例如苹果，可以代表水果，也可以代表手机，那么具体表示哪个可以根据上下文的语义来推测，这也是ELMO模型要解决的关键问题。

模型：

1.双向语言模型

双向体现在，使用双向的LSTM模型
语言模型体现在Ngram模式 p(tk | t1,t2,...,tk-1)

目标log似然函数为：

双向LSTM的参数是共享的。

2.ELMO

因为有L层LSTM，并且是双向的，所以有2L个representation，然后再加上token的一个representation，所以一共有2L+1个，这些都用来预测下一个词。

例如：上图显示L=3, 要预测t5，就需要标红的7个representation来去做预测。

那么这7个representation，如何去预测t5呢？

最简单的版本，就用最上层的LSTM的2个representation去预测，这篇文章中，7个representation都要用上去。

其中=

公式中，参数sj 是做了softmax-normalized，是需要结合任务去学出来的。

refer : https://arxiv.org/abs/1802.05365

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。