场景描述
文本是一类非常重要的非结构化数据,如何表示文本数据一直是机器学习领域的一个重要研究方向。
知识点:词袋模型
(Bag of Words)、TF-IDF
(Term Frequency-Inverse Document Frequency),主题模型
(Topic Model)、词嵌入模型
(Word Embedding)
问题:有哪些文本表示模型?它们各有什么优缺点?
分析与解答
-
词袋模型和N-gram模型
最基础的文本表示模型是词袋模型。顾名思义,就是将每篇文章看成一袋子词,并忽略每个词出现的顺序。具体地说,就是将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而该维对应的权重则反映了这个词在原文章中的重要程序。常用TF-IDF
来计算权重,公式为