阅读笔记——2019_004 A SURVEY OF TECHNIQUES FOR EVENT DETECTION IN TWITTER

原创于 2019-10-25 15:10:41 发布 · 349 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

组会周报专栏收录该内容

6 篇文章

订阅专栏

本文探讨了在Twitter上进行事件检测的传统与新兴技术，包括数据预处理、表示方法、聚类算法及评估指标，特别关注实时事件检测(NED)与回顾性事件检测(RED)的对比分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

A SURVEY OF TECHNIQUES FOR EVENT DETECTION IN TWITTER

这篇文章是在阅读笔记003的参考文献中溯源而得，文章年限比较久了，但其中的一些事件检测技术还是比较具有代表性，本文只关注其中事件检测的技术。
论文下载链接

事件检测

1.传统媒体中的事件检测

$\begin{cases} 数据预处理\\ 数据表示\\ 数据组织或聚类 \end{cases}$

$\begin{cases} 回顾性事件检测（RED）——从历史记录中发现以前未识别的事件\\ 新事件检测（NED）——实时从实时数据流中发现新事件\\ \end{cases}$

1.数据表示

使用词向量表示
问题：忽略单词时间顺序，文本语义，句法特征（如命名实体和语法）

命名实体向量：4ws——何人何事何时何地
概率表示：结合内容和时间

2.评价指标

$\begin{cases} 欧氏距离\\ 皮尔逊相关系数\\ 余弦相似性\\ Hellinger距离\\ 聚类指数\\ \end{cases}$

3.RED检测

迭代聚类算法，需要整个文档集合
分层聚类算法（HAC）
k-means
k-median
k-means++

4.NED检测

必须在文本到达时提供决策
基于增量（贪婪）算法
使用滑动时间窗口
限制每个文档的术语数
限制保留的总术语数
采用并行处理

RED与NED都是基于文本的，旨在识别语料库中曾经重要性不高或现在迅速增长的主题

5.基于特征

无限状态自动机，概率自动机的状态对应于每个单词的频率，状态转换来表示突发事件，对应于单词频率的显著变化。
离散傅里叶变换（无法识别时间段）
高斯混合模型
n-gram

6.Twitter事件

（1）未指定事件
①朴素贝叶斯提取有效信息，基于TF-IDF及余弦相似度聚类
②使用预定义的搜索查询对推文进行采样，增加索引，基于TF-IDF，对专有名词，主题标签和用户名，权重增加
③基于文本之间的余弦相似性以及局部敏感的哈希方法
④基于阈值的增量聚类+SVM
⑤基于主题词，采用自上而下的分层划分聚类方法将主题词划分为事件，采用最大加权二部图创建事件链，跟踪事件变化
⑥基于从Twitter生成的单个单词构建的离散小波信号聚类
⑦基于哈希标签的连续小波变换，并结合使用LDA
（2）指定事件
①确定有争议的事件
②因子图模型
③CRF模型
④基于社会地理事件检测系统
⑤ETree
⑥TSCAN

7.Twitter事件的检测方法

（1）无监督检测
①Twitter数据动态变化，随着时间推移会出现新的事件，故无需先验知识，故K-means，K-median和K-medoid方法不合适
②基于阈值的在线聚类方法
③基于图的聚类方法
④考虑隐马尔可夫模型
⑤短语增强：找到包含该主题的最常用短语
⑥根据相对词频，主题标签，超链接，答复和追随者数量，帖子长度，缩写和大写来扩展查询
（2）监督检测方法
①前提：特定事件
②朴素贝叶斯
③SVM
④梯度提升决策树
⑤考虑词频，变体，相关词，特殊关键字，以及围绕关键词的上下文信息，相对位置信息，POS标记，主要实体提取

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。