NLP面试知识汇总

最新推荐文章于 2025-05-25 12:22:10 发布

noTensor

最新推荐文章于 2025-05-25 12:22:10 发布

阅读量1.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：面试问题文章标签：自然语言处理机器学习面试 nlp

本文链接：https://blog.csdn.net/qq_43935303/article/details/120356917

NLP面试知识汇总

NLP面试知识汇总

NLP面试知识汇总

1. ngram模型

是一种统计语言模型。常用的有unigram(1-gram),bi-ngram,tri-gram。
理论依据：
ngram根据概率公式推导，依据条件概率和乘法公式，假设有两个词A和B，在A后出现B的概率为: $p(B|A)=\frac{p(AB)}{p(A)}$ 上述式子可解释为在 $A$ 同时出现时 $A B$ 同时出现的概率，有 $p(B|A)=\frac{c(AB)}{c(A)}$ 其中 $c (A B)$ 为文中 $A B$ 出现的次数， $c (A)$ 为 $A$ 出现的次数。
变为乘法公式有: $p (A B) = p (B ∣ A) p (A)$ 从而得到ngram概率公式： $p(A_1A_2...A_n)=p(A_1)p(A_2|A_1)p(A_3|A_2A_1)...p(A_n|A_{n-1}...A_1)$ 引入马尔科夫假设，即当前词的出现仅与之前几个词有关。即：
$p(A_1,A_2,...A_n)=p(A_i|A_{i-m+1}...A_{i-1})$ ngram模型中n的影响:
* n变大时：对下一个词的约束性信息增大，更大的辨别力，更稀疏，并且n-gram统计的的总数更多，为 $word-num^V]$ 个。
* n变小时：高频词次数更多，统计结果更可靠，更高的可靠性，但是约束信息更少。

n为特定值时，假设 $∣ V ∣ = 2 e 4$ ，统计次数为：

n	ngram个数
1	4e8
2	8e12
3	1.6e17

2. word2vec

NLP中，最细粒度的是词，词组成句子，句子组成 段落、篇章、文档。而word2vec就是表征词的技术。
为什么要有Word2vec？？？
利用模型处理需要将文本转换成数值形式，即嵌入到一个数学空间，这种嵌入方式，就叫词嵌入 word embedding，而 Word2vec 就是词嵌入 word embedding 的一种，是一种无监督预训练方法。
Word2vec的两个学习方式 : Skip-gram和CBOW

word2vec到底怎样训练：
答：上述可知，处理文本需要将文本转换为可处理的数值形式，也就是利用词袋模型，转换为one-hot形式输送入模型进行训练，而在模型处理的过程中，会对one-hot进行一系列的线性或非线性变换，而在one-hot向量线性变换且降维操作中得到的产物，就是最终需要的词向量，也就是该层的权重。