《Mining Quality Phrases from Massive Text Corpora》论文学习笔记

本文详细介绍了从海量文本中挖掘高质量短语的论文,提出了一种结合短语分割和质量评估的新框架。该方法通过短语质量估计、分割算法和反馈机制,实现了对短语质量的高效评估,只需少量训练数据即可生成接近人类判断的高质量短语,且具有良好的可扩展性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一、序言

二、研究背景

三、基础概念

四、研究意义

4.1 传统的短语挖掘方法

4.2 基于传统词频统计,及矫正前后短语挖掘效果

4.3 基于传统的词频统计结果

4.4 本文所采用的方法

五、实现步骤 

5.1 从原始语料库到高质量的短语和细分的语料库

​5.2 整体框架

5.3 短语质量评估

5.4 相关算法

5.4.1 Frequent Phrase Detection

5.4.2 Phrase Quality Estimation

5.4.3 Phrasal Segmentation 

5.4.4 Feedback as Segmentation Feature

六、相关实验

6.1 ClassPhrase I 候选集的模式挖掘(流行性)

6.2 ClassPhrase II 特征提取(一致性)

6.3 ClassPhrase II 特征提取(信息度)

6.4 ClassPhrase III 分类器

6.5 SegPhrase  短语分割

6.6 SegPhrase+  增强短语分割 

七、对比试验

7.1 实验环境

7.2 实验结果 

八、代码实现

8.1 Get Data

8.2 Raw Frequency

8.3 Quality Score

8.4 Concordance

8.5 Informativeness 

8.6 Train Classfier

九、总结和展望

十、参考内容


一、序言

       本文是发表于2015年的ACM SIGMOD文章,论文题目是《Mining Quality Phrases from Massive Text Corpora》,意为从海量文本体中挖掘优质短语,提出了一种结合短语分割和高质量短语评估相结合的方法。论文下载地址sigmod15_jliu.pdf (illinois.edu)

二、研究背景

       面对动态变化而且巨大的语料库,我们要如何利用更少的标签数据从中获取高质量的短语,本篇论文提出了一种结合短语分割和高质量短语评估相结合的方法。

       文本数据无处不在,在大数据应用中发挥着重要作用。然而,文本数据大多是非结构化的。将非结构化文本转换为结构化单元(例如,语义上有意义的短语)将大大减少语义歧义,并提高使用数据库技术操作此类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Dr.Petrichor

作者逐个题目分析的噢

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值