凝固度和自由度提取关键词

最新推荐文章于 2024-05-12 23:19:42 发布

晚睡的人没对象

最新推荐文章于 2024-05-12 23:19:42 发布

阅读量1.6k

点赞数 5

CC 4.0 BY-SA版权

分类专栏： python 自然语言处理深度学习文章标签：自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ezra521/article/details/105697819

python 同时被 3 个专栏收录

7 篇文章

订阅专栏

6 篇文章

订阅专栏

自然语言处理

5 篇文章

订阅专栏

凝固度和自由度提取关键词

1.凝固度概念

含义：一个字组合片段里面字与字之间的紧密程度。比如“琉璃”、“榴莲”这样的词的凝固度就非常高，而“华为”、“组合”这样的词的凝固度就不是很高。
比如：我们抽取一段文字中的某一个词，怎么才能断定它是一个词呢，通常我们使用频次来断定一段文字是否是词。但是2400万的语料中
- “的电影”出现389次
- “电影院”出现175次
“电影院”的凝固度要大于“的电影”的凝固度

2.凝固度的计算公式

凝固度的计算公式如下所示：
$min(\frac{p(电影院)}{p(电)p(影院)}，\frac{p(电影院)}{p(电影)p(院)})$
C(电影院)代表“电影院”的凝固度，p(电影院)代表“电影院”在该语料中出现的频率。

3.自由度概念

含义：一个字组合片段能独立自由运行的程度。比如“巧克力”里面的“巧克”凝固度就很高，和“巧克力”一样高，但是它右边相邻的词非常的单一、自由运用程度几乎为零，所以“巧克”不能单独成词。单独成词的字组合应该有更丰富的临字。

4.自由度计算公式

自由度的计算和信息熵有着密不可分的关系
信息熵的计算公式如下所示：
$\sum_{i=1}^{n}{p_i \cdot log(p_i)}$
- 样本空间U中有n个互不相容的独立事件，$ p_i $ 代表i事件发生的概率。H(U)表示样本空间U的信息熵。
自由度定义为一个文本片段的左临字信息熵和右临字信息熵中的较小值。
词w自由度的计算公式如下：
$F(w) = min(H(L_w),H(R_w))$
- 其中 $L_w$ 代表的是词w的左邻字的集合， $R_w$ 代表的是词w的右邻字的集合。

5.总结

通过凝固度限制一个词语是否是词，通过自由度限制一个词的相邻的样本空间是否丰富。最后筛选出满足一定自由度凝固度和概率的词。
使用这种方法提取关键词需要语料要足够大，尽可能的让语料的样本分布和现实生活中该领域的样本分布保持一致，这样的话提取出来的关键词才更有说服力。也可以使用指定的字典进行过滤，提高提取出来的关键词的有效性。
该方法的难点也在于如何去选择出合适的阈值，作者也没有给一个特别好的选取方法。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。