word2vec 核心简记_word2tex 最大化平均对数概率-CSDN博客

本文链接：https://blog.csdn.net/schwt/article/details/73692004

本文探讨了Huffman编码在词权重中的应用，以及n-gram模型如何通过前后词预测目标词的概率。深入介绍了CBOW和Skip-gram两种词向量训练模型的工作原理，并讨论了如何使用Negative Sampling来提升模型训练效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Huffman编码：

用词频作为词权重，构造 Huffman 树生成的 Huffman 编码，满足语料库总编码长度的期望最短。（频率高的编码短，频率低的编码长）
n-gram:

(n-1)阶Markov假设：词概率只与它前面 n-1 个词有关。复杂度 $O(N^n)$ 。需要平滑（类似 Bayes)
$n=1$ 即是 unigram

2 Hierarchical Softmax

n-gram下词 $w_i$ 的上下文Context( $w_i$ )：

$C (w i) = (w i - n, \dots, w i - 1 ， w i + 1, \dots, w i + n)$ $\mathbf C(w_i) =(w_{i-n}, \cdots, w_{i-1}， w_{i+1}, \cdots, w_{i+n} )$
每个词的词向量： $\mathbf v(w)$

2.1 CBOW(continuous bag of word):

概率模型及其对数似然函数：

$p (w | C (w)) L = \sum w \in D log p (w | C (w))$ $p(w|\mathbf C(w)) \\ \mathcal L = \sum_{w\in \mathcal D} \log p(w | \mathbf C(w))$
输入层： $C(w)$
投影层的构造： $\mathbf x(w) = \sum_{w' \in C(w)} \mathbf v(w')$
输出层：
Huffman 树，叶子节点 $N$ (词个数）个，非叶子节点 $N-1$ 个。
从根节点向下找到词 $w$ 的叶节点有唯一路径 $j$ ，到每一层 $j$ 的结点（有一个权重 $\theta_j$ )向下做二分裂，相当于做一次二分类 $\sigma(\mathbf x(w) \cdot \theta_j)$ 。向左为负类( $t_{j+1}=0$ )，右为正类( $t_{j+1}=1$ )。
最终找到词 $w$ 的概率 $P$ 及对数似然函数 $\mathcal L$ ：
$p (w | C (w)) = \prod j = 1 \to w p (t j + 1 | x (w), θ j) = \prod j = 1 \to w σ (x (w) \cdot θ j) t j + 1 \cdot [1 - σ (x (w) \cdot θ j)] 1 - t j + 1 L = \sum w log \prod j = 1 \to w p (t j + 1 | x (w), θ j) = \sum w \sum j = 1 \to w (t j + 1 log σ [x (w) \cdot θ j] + (1 - t j + 1) log (1 - σ [x (w) \cdot θ j]))$ $p(w| C(w)) = \prod_{j=1}^{\to w} p(t_{j+1} | \mathbf x(w), \theta_j) \\ = \prod_{j=1}^{\to w} \sigma (x(w) \cdot \theta_j)^{t_{j+1}} \cdot [1 - \sigma(x(w) \cdot \theta_j) ]^{1-t_{j+1}} \\ \mathcal L = \sum_w \log \prod_{j=1}^{\to w} p(t_{j+1} | \mathbf x(w), \theta_j) \\ = \sum_w \sum_{j=1}^{\to w} \left( t_{j+1} \log\sigma[x(w) \cdot \theta_j] + (1-t_{j+1})\log (1- \sigma[x(w) \cdot \theta_j] ) \right)$

$t$ 是与 w 有关的（每次找不同的 w)， $\theta$ 只与结点有关，与词无关？

2.2 skip-gram:

输入层： $\mathbf v(w)$
输出层：
Huffman树。从顶层根结点向下找到每个 $u \in C(w)$ 。每个结点的二分裂与CBOW 类似。
概率模型及其对数似然函数：
$p (C (w) | w) = \prod u \in C (w) p (u | w) = \prod u \in C (w) \prod j = 1 \to u σ (v (w) \cdot θ j) t j + 1 \cdot [1 - σ (v (w) \cdot θ j)] 1 - t j + 1 L = \sum w log \prod u \in C (w) p (u | w) \sum w \sum u \in C (w) \sum j = 1 \to u (t j + 1 log σ [v (w) \cdot θ j] + (1 - t j + 1) log (1 - σ [v (w) \cdot θ j]))$ $p(\mathbf C(w) | w) = \prod_{u\in C(w)} p(u| w) \\ = \prod_{u\in C(w)} \prod_{j=1}^{\to u} \sigma (v(w) \cdot \theta_j)^{t_{j+1}} \cdot [1 - \sigma(v(w) \cdot \theta_j) ]^{1-t_{j+1}} \\ \mathcal L = \sum_w \log \prod_{u\in C(w)} p(u| w) \\ \sum_w \sum_{u \in C(w)} \sum_{j=1}^{\to u} \left( t_{j+1} \log\sigma[v(w) \cdot \theta_j] + (1-t_{j+1})\log (1- \sigma[v(w) \cdot \theta_j] ) \right)$

3. Negative sampling（NEG）

用随机负采样替代 Huffman 树，提高效率。

词向量： $\mathbf v(w)$ ，简写 $\mathbf v_w$
每个词的上下文Context(w)： $C(w)$ ， $\mathbf x_w = \mathbf x(w) = \sum_{u\in C(w)} \mathbf v(u)$
每个词的负采样集合： $NEG(w)$
每个词的辅助权重： $\theta_w$

3.1 CBOW

对每一组样本 $(w, C(W))$ ，最大化 $p(c(w) \to w)$ ，最小化 $\prod_{u \in NEG(w)} p(c(w) \to u)$ , 即最大化的单样本似然函数 $g(w)$ 。及语料库 $D$ 的总似然函数 $\mathcal L$ ：

g (w) = p (w | C (w)) \prod u \in N E G (w) p (u | C (w)) = σ (x w \cdot θ w) \prod u \in N E G (w) [1 - σ (x w \cdot θ u)] L = \sum w \in D log g (w) = \sum w ⎡ ⎣ log σ (x w \cdot θ w) + \sum u \in N E G (w) log [1 - σ (x w \cdot θ u)] ⎤ ⎦

$g(w) = p(w|C(w))\prod_{u \in NEG(w)} p(u|C(w)) \\ = \sigma(x_w \cdot \theta_w) \prod_{u \in NEG(w)} [1- \sigma(x_w \cdot \theta_u) ] \\ \mathcal L = \sum_{w\in \mathcal D} \log g(w) \\ = \sum_w \left[ \log \sigma (x_w\cdot \theta_w) + \sum_{u\in NEG(w)} \log [1-\sigma(x_w \cdot \theta_u)]\right]$