一文看懂Word2Vec

zjz_xn

于 2022-01-23 22:53:07 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏：神经网络文章标签： word2vec 机器学习自然语言处理

原文链接：http://easyai.tech/ai-definition/word2vec/

神经网络专栏收录该内容

31 篇文章

订阅专栏

什么是 Word2vec ？

Word2vec 是 Word Embedding 的方法之一。他是 2013 年由谷歌的 Mikolov 提出了一套新的词嵌入方法。

需要说明的是：Word2vec 是上一代的产物（18 年之前）， 18 年之后想要得到最好的效果，已经不使用 Word Embedding 的方法了，所以也不会用到 Word2vec。这种方式在 2018 年之前比较主流，但是随着 BERT、GPT2.0 的出现，这种方式已经不算效果最好的方法了。

Word2vec 在整个 NLP 里的位置可以用下图表示：
在这里插入图片描述
Word2vec 的 2 种训练模式
CBOW(Continuous Bag-of-Words Model)和Skip-gram (Continuous Skip-gram Model)，是Word2vec 的两种训练模式。下面简单做一下解释：

CBOW

通过上下文来预测当前值。相当于一句话中扣掉一个词，让你猜这个词是什么。
在这里插入图片描述
Skip-gram

用当前词来预测上下文。相当于给你一个词，让你猜前面和后面可能出现什么词。
在这里插入图片描述
优化方法

为了提高速度，Word2vec 经常采用 2 种加速方式：

<1> Negative Sample（负采样）
<2> Hierarchical Softmax

Word2vec 的优缺点

优点：

由于 Word2vec 会考虑上下文，跟之前的 Embedding 方法相比，效果要更好（但不如 18 年之后的方法）
比之前的 Embedding方法维度更少，所以速度更快
通用性很强，可以用在各种 NLP 任务中

缺点：

由于词和向量是一对一的关系，所以多义词的问题无法解决。
Word2vec 是一种静态的方式，虽然通用性强，但是无法针对特定任务做动态优化

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。