Word2Vec图文详解+代码分析

简介

“i do not love coding”,对于这样一句话,计算机是看不懂的,也不能直接进行输入,所以我们需要对他进行编码,让计算机能够看懂。

那么可能我们会第一时间想到onehot,是的经过onehot之后计算机确实可以进行处理了,但是会存在下面这个问题:

假设我们现在的语料库只有这五个单词,那么vocab_size = 5

下面这张图请大家忽略一些nlp上面的预处理问题,我为了给大家说明白所以举的例子比较直白,另外coding和like是我故意换的位置,我怕和pos_embedding弄混了,如果不懂什么是position emb的也没关系。
在这里插入图片描述
上图可以看出,通过one-hot编码之后的每个词。

看着挺好的呀,但是其实缺少了很重要的一点就是相似度问题,similarity(boy, girl)应该是不等于similarity(boy, hippo)的。

但是通过这种编码之后cosine-similarity都是零:

在这里插入图片描述
这个问题非常严重,所以才有了word embedding技术。

而其中:

  • 2013年提出 Word2Vec
  • 2014年提出 Glove
  • 2017年提出 FastText

首先先看一下W2V之后的每个词会是什么样子:

这里我们语料只放这句话:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值