凝固度和自由度提取关键词
1.凝固度概念
- 含义:一个字组合片段里面字与字之间的紧密程度。比如“琉璃”、“榴莲”这样的词的凝固度就非常高,而“华为”、“组合”这样的词的凝固度就不是很高。
- 比如:我们抽取一段文字中的某一个词,怎么才能断定它是一个词呢,通常我们使用频次来断定一段文字是否是词。但是2400万的语料中
- “的电影”出现389次
- “电影院”出现175次
- “电影院”的凝固度要大于“的电影”的凝固度
2.凝固度的计算公式
- 凝固度的计算公式如下所示:
C ( 电 影 院 ) = m i n ( p ( 电 影 院 ) p ( 电 ) p ( 影 院 ) , p ( 电 影 院 ) p ( 电 影 ) p ( 院 ) ) C(电影院) = min(\frac{p(电影院)}{p(电)p(影院)},\frac{p(电影院)}{p(电影)p(院)}) C(电影院)=min(p(电)p(影院)p(电影院),p(电影)p(院)p(电影院)) C(电影院)
代表“电影院”的凝固度,p(电影院)
代表“电影院”在该语料中出现的频率。
3.自由度概念
- 含义:一个字组合片段能独立自由运行的程度。比如“巧克力”里面的“巧克”凝固度就很高,和“巧克力”一样高,但是它右边相邻的词非常的单一、自由运用程度几乎为零,所以“巧克”不能单独成词。单独成词的字组合应该有更丰富的临字。
4.自由度计算公式
- 自由度的计算和信息熵有着密不可分的关系
- 信息熵的计算公式如下所示:
H ( U ) = − ∑ i = 1 n p i ⋅ l o g ( p i ) H(U) = - \sum_{i=1}^{n}{p_i \cdot log(p_i)} H(U)=−i=1∑npi⋅log(pi)- 样本空间
U
中有n个互不相容的独立事件,$ p_i $ 代表i
事件发生的概率。H(U)
表示样本空间U
的信息熵。
- 样本空间
- 自由度定义为一个文本片段的左临字信息熵和右临字信息熵中的较小值。
- 词
w
自由度的计算公式如下:
F ( w ) = m i n ( H ( L w ) , H ( R w ) ) F(w) = min(H(L_w),H(R_w)) F(w)=min(H(Lw),H(Rw))- 其中
L
w
L_w
Lw代表的是词
w
的左邻字的集合, R w R_w Rw 代表的是词w
的右邻字的集合。
- 其中
L
w
L_w
Lw代表的是词
5.总结
- 通过凝固度限制一个词语是否是词,通过自由度限制一个词的相邻的样本空间是否丰富。最后筛选出满足一定自由度凝固度和概率的词。
- 使用这种方法提取关键词需要语料要足够大,尽可能的让语料的样本分布和现实生活中该领域的样本分布保持一致,这样的话提取出来的关键词才更有说服力。也可以使用指定的字典进行过滤,提高提取出来的关键词的有效性。
- 该方法的难点也在于如何去选择出合适的阈值,作者也没有给一个特别好的选取方法。