句子相似度的计算方法有:
1.欧氏距离:多维空间两个点的绝对距离
2.余弦相似度:用两个向量的夹角的余弦值来衡量相似度,首先对句子做embedding再计算两个句子或文本的相似度,更注重方 向上的差异
3.TF-IDF:从词频率的角度出发计算一个词在一个文档和所有文档的频率
4.doc2vec,word2vec:用来创建词向量的模型,doc2vec是word2vec的扩展,可以计算单个词到句子到文章的相似度。
计算公式:
1.欧式距离公式:
2.余弦相似度
3.TF-IDF
4.word2vec
优缺点比较:
实现方式:
word2vec: trained_model.similarity('woman', 'man')
doc2vec可以参考例子:https://kanoki.org/2019/03/07/sentence-similarity-in-python-using-doc2vec/