读ELMO文章

ELMo模型,即从语言模型中学习词向量,解决了传统word2vec模型中词向量单一的问题,通过双向LSTM考虑上下文语境,实现词义的动态表示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

      全称是Embeddings from Language Models,从语言模型中学习到词向量。word2vec训练出的词向量有一个问题,一个词只有一个embbeding,实际上一个词会有多个含义,例如 苹果,可以代表水果,也可以代表手机,那么具体表示哪个可以根据上下文的语义来推测,这也是ELMO模型要解决的关键问题。

 

模型:

1.双向语言模型

  • 双向体现在,使用双向的LSTM模型
  • 语言模型体现在Ngram模式 p(tk | t1,t2,...,tk-1)

目标log似然函数为:

双向LSTM的参数是共享的。

 

2.ELMO

因为有L层LSTM,并且是双向的,所以有2L个representation,然后再加上token的一个representation,所以一共有2L+1个,这些都用来预测下一个词。

例如: 上图显示L=3, 要预测t5,就需要标红的7个representation来去做预测。

那么这7个representation,如何去预测t5呢? 

最简单的版本,就用最上层的LSTM的2个representation去预测,这篇文章中,7个representation都要用上去。

其中=

公式中,参数sj 是做了softmax-normalized,是需要结合任务去学出来的。

 

 

 

 

 

 

 

 

 

refer : https://arxiv.org/abs/1802.05365

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值