未完……
9、BERT
8、为什么self-attention可以替代seq2seq?
7、attention机制中,q,k,v分别代表什么?
6、写出attention公式?
以下是4种attention公式,分别为加法attention,双线性attention,哈达马积attention,减法attention,tanh为双曲正切函数。

5、k-means聚类的优缺点?
优点:
1、 算法快速、简单,解释性强。
2、 聚类效果中上, 适用于高维。
缺点:
1、 对离群点/噪声点/孤立点敏感(通过k-centers算法可以解决)
2、聚类个数k的初始化,以及初始点的选择。
4、k-means聚类算法中的k如何确定?
标准数据:已知k,有专门算法学习k值。
公司实际场景数据:根据对业务的理解探索k值,并抽样观察。
3、k-means聚类初始点除了随机选取之外,还有什么方法?
思想:初始的聚类中心之间相互距离尽可能远。
法1(kmeans++):
法2:用层次聚类或Canopy算法进行初始聚类,然后从k个类别中分别随机选取k个点
作为kmeans的初始聚类中心点。
2、写出贝叶斯公式?
贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件Bi的概率),设B1,B2,...,是样本空间Ω的一个划分,则对任一事件A,有

上式即为贝叶斯公式,Bi常被视为导致试验结果A发生的原因,P(Bi)(i=1,2,...)表示各种原因发生的可能性大小,故称先验概率;P(Bi|A)(i=1,2...)则反映当试验产生了结果A之后,再对各种原因概率的新认识,故称后验概率。
实例:发报台分别以概率0.6和0.4发出信号“∪”和“—”。由于通信系统受到干扰,当发出“∪”时,收报台分别以概率0.8和0.2收到信号“∪”和“—”;当发出“—”时,收报台分别以概率0.9和0.1收到信号“—”和“∪”。求当收报台收到信号“∪”时,发报台确系发出“∪”的概率。
解:P(B1|A)= (0.6*0.8)/(0.6*0.8+0.4*0.1)=0.923
1、写出全概率公式?
当直接计算P(A)困难,而计算P(Bi)和P(A|Bi) (i=1,2,...)容易时,可以利用全概率公式计算P(A).
将事件A分解成几个小事件,通过求小事件的概率,然后相加求得事件A的概率,而将事件A分割的时候,不是直接对A进行分割,而是先找到样本空间中的一个两两互斥且并集为整个空间的划分(B1,B2,…… ,Bn),这样事件A就被划分成n部分,即A=AB1+AB2+...+ABn,,全概率公式如下:
P(A)=P(AB1)+P(AB2)+....+P(ABn)
=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(PBn)
实例:某车间用甲、乙、丙三台机床进行生产,各台机床次品率分别为5%,4%,2%,它们各自的产品分别占总量的25%,35%,40%,将它们的产品混在一起,求任取一个产品是次品的概率。
解: P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+P(A|B2)P(B2)
=5%*25%+35%*4%+40%*2%=0.0345