Word2Vec图文详解+代码分析

Braylon1002

于 2020-09-04 12:04:09 发布

阅读量1.3k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：数据挖掘文章标签： Word2Vec pytorch 深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40742298/article/details/108399669

文章目录

- 简介
- 原理
- 代码分析
- 最后

简介

“i do not love coding”，对于这样一句话，计算机是看不懂的，也不能直接进行输入，所以我们需要对他进行编码，让计算机能够看懂。

那么可能我们会第一时间想到onehot，是的经过onehot之后计算机确实可以进行处理了，但是会存在下面这个问题：

假设我们现在的语料库只有这五个单词，那么vocab_size = 5

下面这张图请大家忽略一些nlp上面的预处理问题，我为了给大家说明白所以举的例子比较直白，另外coding和like是我故意换的位置，我怕和pos_embedding弄混了，如果不懂什么是position emb的也没关系。
在这里插入图片描述
上图可以看出，通过one-hot编码之后的每个词。

看着挺好的呀，但是其实缺少了很重要的一点就是相似度问题，similarity（boy, girl)应该是不等于similarity（boy, hippo）的。

但是通过这种编码之后cosine-similarity都是零：

在这里插入图片描述
这个问题非常严重，所以才有了word embedding技术。

而其中：

2013年提出 Word2Vec
2014年提出 Glove
2017年提出 FastText

首先先看一下W2V之后的每个词会是什么样子：

这里我们语料只放这句话：

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。