Huffman编码:
用词频作为词权重,构造 Huffman 树生成的 Huffman 编码,满足语料库总编码长度的期望最短。(频率高的编码短,频率低的编码长)
n-gram:
(n-1)阶Markov假设:词概率只与它前面 n-1 个词有关。复杂度 O(Nn)O(Nn)。需要平滑(类似 Bayes)
n=1n=1即是 unigram
2 Hierarchical Softmax
n-gram下词 wiwi 的上下文Context(wiwi):
C(wi)=(wi−n,⋯,wi−1,wi+1,⋯,wi+n)C(wi)=(wi−n,⋯,wi−1,wi+1,⋯,wi+n)每个词的词向量:v(w)v(w)
2.1 CBOW(continuous bag of word):
概率模型及其对数似然函数:
p(w|C(w))L=∑w∈Dlogp(w|C(w))p(w|C(w))L=∑w∈Dlogp(w|C(w))输入层:C(w)C(w)
- 投影层的构造:x(w)=∑w′∈C(w)v(w′)x(w)=∑w′∈C(w)v(w′)
- 输出层:
Huffman 树,叶子节点NN(词个数)个,非叶子节点 个。
从根节点向下找到词 ww 的叶节点有唯一路径 ,到每一层 jj 的结点(有一个权重)向下做二分裂,相当于做一次二分类σ(x(w)⋅θj)σ(x(w)⋅θj)。向左为负类(tj+1=0tj+1=0),右为正类(tj+1=1tj+1=1)。
最终找到词 ww 的概率 及对数似然函数LL:
p(w|C(w))=∏j=1→wp(tj+1|x(w),θj)=∏j=1→wσ(x(w)⋅θj)tj+1⋅[1−σ(x(w)⋅θj)]1−tj+1L=∑wlog∏j=1→wp(tj+1|x(w),θj)=∑w∑j=1→w(tj+1logσ[x(w)⋅θj]+(1−tj+1)log(1−σ[x(w)⋅θj]))p(w|C(w))=∏j=1→wp(tj+1|x(w),θj)=∏j=1→wσ(x(w)⋅θj)tj+1⋅[1−σ(x(w)⋅θj)]1−tj+1L=∑wlog∏j=1→wp(tj+1|x(w),θj)=∑w∑j=1→w(tj+1logσ[x(w)⋅θj]+(1−tj+1)log(1−σ[x(w)⋅θj]))
tt是与 w 有关的(每次找不同的 w),只与结点有关,与词无关?
2.2 skip-gram:
- 输入层:v(w)v(w)
- 输出层:
Huffman树。从顶层根结点向下找到每个 u∈C(w)u∈C(w)。每个结点的二分裂与CBOW 类似。
概率模型及其对数似然函数:
p(C(w)|w)=∏u∈C(w)p(u|w)=∏u∈C(w)∏j=1→uσ(v(w)⋅θj)tj+1⋅[1−σ(v(w)⋅θj)]1−tj+1L=∑wlog∏u∈C(w)p(u|w)∑w∑u∈C(w)∑j=1→u(tj+1logσ[v(w)⋅θj]+(1−tj+1)log(1−σ[v(w)⋅θj]))p(C(w)|w)=∏u∈C(w)p(u|w)=∏u∈C(w)∏j=1→uσ(v(w)⋅θj)tj+1⋅[1−σ(v(w)⋅θj)]1−tj+1L=∑wlog∏u∈C(w)p(u|w)∑w∑u∈C(w)∑j=1→u(tj+1logσ[v(w)⋅θj]+(1−tj+1)log(1−σ[v(w)⋅θj]))
3. Negative sampling(NEG)
用随机负采样替代 Huffman 树,提高效率。
- 词向量:v(w)v(w),简写 vwvw
- 每个词的上下文Context(w):C(w)C(w),xw=x(w)=∑u∈C(w)v(u)xw=x(w)=∑u∈C(w)v(u)
- 每个词的负采样集合:NEG(w)NEG(w)
- 每个词的辅助权重:θwθw
3.1 CBOW
对每一组样本 (w,C(W))(w,C(W)),最大化 p(c(w)→w)p(c(w)→w),最小化 ∏u∈NEG(w)p(c(w)→u)∏u∈NEG(w)p(c(w)→u), 即最大化的单样本似然函数g(w)g(w)。及语料库DD的总似然函数 :
g(w)=p(w|C(w))∏u∈NEG(w)p(u|C(w))=σ(xw⋅θw)∏u∈NEG(w)[1−σ(xw⋅θu)]L=∑w∈Dlogg(w)=∑w⎡⎣logσ(xw⋅θw)+∑u∈NEG(w)log[1−σ(xw⋅θu)]⎤⎦g(w)=p(w|C(w))∏u∈NEG(w)p(u|C(w))=σ(xw⋅θw)∏u∈NEG(w)[1−σ(xw⋅θu)]L=∑w∈Dlogg(w)=∑w[logσ(xw⋅θw)+∑u∈NEG(w)log[1−σ(xw⋅θu)]]
3.2 skip gram
对每一组样本 (w,C(W))(w,C(W)),?