1、什么是 TF-IDF 向量
TF-IDF 是 Term Frequency-Inverse Document Frequency 的缩写,即词频 - 逆文档频率。TF-IDF 向量是一种量化文本中词语重要性的数值向量表示方法,在自然语言处理(NLP)中广泛应用于文本特征提取与表示。
TF-IDF(Term Frequency-Inverse Document Frequency),即词频 - 逆文档频率,由词频(TF)和逆文档频率(IDF)两部分组成,其计算公式如下。
(1) 词频(TF)
表示一个词语在一篇文档中出现的频率,计算公式为:
(2) 逆文档频率(IDF)
反映一个词语在整个文档集合中的普遍重要性,计算公式为:
(3) TF-IDF 值
为词频与逆文档频率的乘积,即:
将文档中每个词语的 TF-IDF 值按照一定顺序排列,就构成了 TF-IDF 向量。
计算示例:
假设存在一个包含 3 篇文档的文档集合:
文档 1:“苹果是一种美味的水果,我喜欢苹果”
文档 2:“我今天购买了一部苹果手机”
文档 3:“香蕉也是很好吃的水果”
现在我们来计算文档 1 中词语 “苹果” 的 TF-IDF 值。
(1) 计算词频(TF)
(2) 计算逆文档频率(IDF)
(3) 计算 TF-IDF 值
2、TF-IDF 向量的特点
(1) 突出关键词:TF-IDF 向量能够有效突出文本中的关键词。通过结合词频和逆文档频率,既考虑了词语在当前文档中的出现情况,又抑制了在整个文档集合中频繁出现但对单个文档意义不大的通用词语(如停用词),使得真正能体现文档独特性和主题的词语获得更高的权重,从而更准确地反映文档的核心内容。
(2) 考虑文档集合信息:与仅关注单个文档的词频向量不同,TF-IDF 向量引入了文档集合的统计信息。逆文档频率从全局角度衡量词语的重要性,使得 TF-IDF 向量不仅能描述文档的局部特征,还能反映词语在整个语料库中的分布情况,对文本的表示更加全面和客观。
(3) 具有稀疏性:和词频向量类似,在大规模文档集合和较大词汇表的情况下,TF-IDF 向量也存在稀疏性问题。因为一篇文档中只会涉及词汇表中的部分词语,大部分词语的 TF-IDF 值为 0。不过,由于 IDF 的调节作用,TF-IDF 向量的稀疏性在一定程度上比词频向量更具区分度,能够更好地体现词语之间的差异。
(4) 可解释性较强:TF-IDF 向量的计算原理和结果具有较强的可解释性。通过分析向量中各个元素的值,可以直观地了解每个词语对文档的重要程度,方便用户理解和分析文本内容,也便于在一些需要解释模型决策依据的场景中使用。
3、为什么要使用 TF-IDF 向量
(1) 提高文本表示质量:词频向量单纯以词语出现频率衡量重要性,无法有效区分通用词语和关键信息。而 TF-IDF 向量通过逆文档频率的调节,能够降低通用词语的权重,提升具有区分度词语的权重,从而更准确地表示文本内容,为后续的文本分析任务提供更优质的特征输入。
(2) 适应多种自然语言处理任务:在文本分类、信息检索、文本相似度计算、文本摘要等众多自然语言处理任务中,TF-IDF 向量都能发挥重要作用。例如在文本分类中,基于 TF-IDF 向量训练的模型能够更好地捕捉不同类别文本的特征差异;在信息检索中,能更精准地匹配用户查询和相关文档,提高检索结果的相关性和准确性。
(3) 计算相对简单高效:相比于一些复杂的深度学习文本表示方法(如词嵌入),TF-IDF 向量的计算过程相对简单,不需要复杂的模型训练和大量的计算资源。它仅依赖于文档的统计信息,在处理大规模文本数据时,能够快速生成文本的向量表示,满足实时性或资源受限场景下的应用需求。
4、TF-IDF 向量的应用场景
(1) 文本分类:在文本分类任务中,利用 TF-