深度学习：详解word2vec + 实践操作（包括text2word）

原创

已于 2024-05-21 13:09:26 修改 · 7.8k 阅读

60 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #word2vec #人工智能

于 2023-09-21 21:05:05 首次发布

本文介绍了Word2Vec算法，包括其CBOW和Skip-gram模型，解释了词向量编码的重要性，比较了独热编码与Word2Vec的优缺点，并讨论了Text2vec与Word2Vec的区别。文章还涉及实际应用，如文本分类、词义相似度计算和推荐系统。

一、白话word2vec

Word2Vec是一种用于自然语言处理（NLP）的机器学习算法，由2012年谷歌提出的文本生成词向量模型，包括CBOW（continous bag of words）和Skip Gram。
CBOW模型：是通过一个或多个单词的上下文来进行这个词语的预测
Skip Gram模型：是通过一个或多个单词来进行上下文的预测。
Word2Vec是一个预训练模型，已经训练好的。但也支持在不重新训练的情况下再继续添加新文本进行训练补充
为什么要对词进行编码（词向量化）？
任何数学模型，其输入都需要是数值型的，因为计算机只能理解数字，词语是人类语言的抽象总结，计算机时无法理解的，而在自然语言处理中，我们面对的是文字，而文字是无法直接被数学模型所直接利用的。所以我们需要将文字进行编码，将每一个字符用一个向量进行表示，即把文本分散嵌入到另一个离散空间，，称作分布式表示，又称为词嵌入（word embedding）或词向量。
在word2vec出来之前，我们常用的主要是one hot encoding（独热编码）的方法。
自己理解：我觉得，我们使用word2vec将一个词语转化为向量，其实就是训练一个神经网络的过程，学习单词之间的位置关系，从而得到每个单词对应的向量表示。而CBOW 和 Skip-gram只是是 Word2Vec 的两种不同训练方式，并通过它们得到向量矩阵。
关于具体的CBOW和Skip-gram内部是怎么样的，可以看https://cloud.tencent.com/developer/article/1164487?areaSource=102001.7&traceId=h5OTw1daZ2XfMP8SPzrXU。
Word2Vec算法的核心思想是使用神经网络来学习每个词语的向量表示。在CBOW模型中，输入是上下文中的词语向量，再乘以输入权重矩阵，所得的向量求平均，作为隐藏层向量，再乘以输出权重矩阵，输出是目标词语的向量，在这个过程中不断最小化目标loss。在Skip-gram模型中，输入是目标词语的向量，输出是上下文中的词语向量。（输入层一般使用 one-hot将文字 -> 向量）。
Word2vec预训练模型是通过对大量文本数据进行训练而得到的。在训练过程中，模型会学习单词之间的关系，以及它们在上下文中的出现方式。这些关系和出现方式被编码为向量，使得相似的单词在向量空间中距离更近。

最低0.47元/天解锁文章