word2vec 图解
时间: 2025-01-06 09:36:52 浏览: 50
### Word2Vec工作原理详解
Word2Vec是一种用于生成词向量的技术,主要通过神经网络来学习词语之间的关系。该模型有两种架构:连续词袋(CBOW)和Skip-Gram。
#### 连续词袋 (CBOW)
在CBOW模式下,目标是基于上下文单词预测中心词。具体来说:
- 输入层接收窗口内多个上下文单词作为输入。
- 隐藏层计算这些输入单词的平均值。
- 输出层则试图最大化当前中心词的概率[^1]。
```mermaid
graph LR;
A[上下文词1] --> B(隐藏层);
C[上下文词2] --> B;
D[上下文词n] --> B;
B --> E[中心词];
```
#### Skip-Gram 架构
相比之下,在Skip-Gram模式中,则是从单个中心词去预测周围的上下文词汇。这种结构更适合于小型语料库,并能更好地捕捉低频词汇的信息。
```mermaid
graph LR;
A[中心词] --> B(隐藏层);
B --> C[上下文词1];
B --> D[上下文词2];
B --> E[上下文词n];
```
#### 训练过程中的优化技巧
为了提高效率并改善性能,通常会采用一些特定策略:
- **负采样**: 不必更新整个词汇表上的权重参数,而是随机选取少量未出现在上下文中但频率较高的“噪声”词来进行对比训练。这不仅加快了收敛速度也提高了准确性[^2]。
- **层次Softmax**: 另一种替代方案是对词汇树进行编码从而减少每次迭代所需的计算量。
由于上述原因以及其他局限性(如无法很好地表示一词多义现象),后续出现了更先进的预训练语言模型如ELMo, BERT等[^3]。
阅读全文
相关推荐














