Word2vec

最新推荐文章于 2025-05-19 18:23:16 发布

原创最新推荐文章于 2025-05-19 18:23:16 发布 · 234 阅读

0 ·

CC 4.0 BY-SA版权

知识图谱专栏收录该内容

9 篇文章

订阅专栏

本文深入解析Word2vec的原理与应用，包括词嵌入(wordembedding)概念、Skip-gram与CBOW模型的区别，以及训练技巧如hierarchicalsoftmax和negativesampling的使用。适合NLP初学者及进阶者阅读。

参考

秒懂词向量Word2vec的本质：作者对较好的资源给出评价

word2vec前世今生

通俗理解word2vec

word2vec 中的数学原理详解

把他们转换成数值形式，或者说——嵌入到一个数学空间里，这种嵌入方式，就叫词嵌入（word embedding)，而 Word2vec，就是词嵌入（ word embedding) 的一种

大部分的有监督机器学习模型，都可以归结为：
f(x)->y
在 NLP 中，把 x 看做一个句子里的一个词语，y 是这个词语的上下文词语，那么这里的 f，便是 NLP 中经常出现的『语言模型』（language model），这个模型的目的，就是判断 (x,y) 这个样本，是否符合自然语言的法则，更通俗点说就是：词语x和词语y放在一起，是不是人话。

Word2vec 正是来源于这个思想，但它的最终目的，不是要把 f 训练得多么完美，而是只关心模型训练完后的副产物——模型参数（这里特指神经网络的权重），并将这些参数，作为输入 x 的某种向量化的表示，这个向量便叫做——词向量

skip-gram 和CBOW

如果是用一个词语作为输入，来预测它周围的上下文，那这个模型叫做『Skip-gram 模型』
而如果是拿一个词语的上下文作为输入，来预测这个词语本身，则是『CBOW 模型』

可以看成是单个x->单个y 模型的并联，cost function 是单个 cost function 的累加（取log之后）
与Skip-gram 的模型并联不同，这里是输入变成了多个单词，所以要对输入处理下（一般是求和然后平均），输出的 cost function 不变

hierarchical softmax 和 negative sampling 里不能自拔，但其实，它们并不是 Word2vec 的精髓，只是它的训练技巧，但也不是它独有的训练技巧。 Hierarchical softmax 只是 softmax 的一种近似形式（详见参考资料7.），而 negative sampling 也是从其他方法借鉴而来。
为什么要用训练技巧呢？如我们刚提到的，Word2vec 本质上是一个语言模型，它的输出节点数是 V 个，对应了 V 个词语，本质上是一个多分类问题，但实际当中，词语的个数非常非常多，会给计算造成很大困难，所以需要用技巧来加速训练。
hierarchical softmax
本质是把 N 分类问题变成 log(N)次二分类

negative sampling
本质是预测总体类别的一个子集