阅读笔记——2019_004 A SURVEY OF TECHNIQUES FOR EVENT DETECTION IN TWITTER

本文探讨了在Twitter上进行事件检测的传统与新兴技术,包括数据预处理、表示方法、聚类算法及评估指标,特别关注实时事件检测(NED)与回顾性事件检测(RED)的对比分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

A SURVEY OF TECHNIQUES FOR EVENT DETECTION IN TWITTER


这篇文章是在阅读笔记003的参考文献中溯源而得,文章年限比较久了,但其中的一些事件检测技术还是比较具有代表性,本文只关注其中事件检测的技术。
论文下载链接


事件检测

1.传统媒体中的事件检测

事 件 检 测 阶 段 { 数 据 预 处 理 数 据 表 示 数 据 组 织 或 聚 类 事件检测阶段 \begin{cases} 数据预处理\\ 数据表示\\ 数据组织或聚类 \end{cases}

事 件 检 测 分 类 { 回 顾 性 事 件 检 测 ( R E D ) — — 从 历 史 记 录 中 发 现 以 前 未 识 别 的 事 件 新 事 件 检 测 ( N E D ) — — 实 时 从 实 时 数 据 流 中 发 现 新 事 件 事件检测分类 \begin{cases} 回顾性事件检测(RED)——从历史记录中发现以前未识别的事件\\ 新事件检测(NED)——实时从实时数据流中发现新事件\\ \end{cases} {REDNED

1.数据表示

使用词向量表示
问题:忽略单词时间顺序,文本语义,句法特征(如命名实体和语法)

命名实体向量:4ws——何人何事何时何地
概率表示:结合内容和时间

2.评价指标

相 似 性 指 标 { 欧 氏 距 离 皮 尔 逊 相 关 系 数 余 弦 相 似 性 H e l l i n g e r 距 离 聚 类 指 数 相似性指标 \begin{cases} 欧氏距离\\ 皮尔逊相关系数\\ 余弦相似性\\ Hellinger距离\\ 聚类指数\\ \end{cases} Hellinger

3.RED检测

迭代聚类算法,需要整个文档集合
分层聚类算法(HAC)
k-means
k-median
k-means++

4.NED检测

必须在文本到达时提供决策
基于增量(贪婪)算法
使用滑动时间窗口
限制每个文档的术语数
限制保留的总术语数
采用并行处理

RED与NED都是基于文本的,旨在识别语料库中曾经重要性不高或现在迅速增长的主题

5.基于特征

无限状态自动机,概率自动机的状态对应于每个单词的频率,状态转换来表示突发事件,对应于单词频率的显著变化。
离散傅里叶变换(无法识别时间段)
高斯混合模型
n-gram

6.Twitter事件

(1)未指定事件
①朴素贝叶斯提取有效信息,基于TF-IDF及余弦相似度聚类
②使用预定义的搜索查询对推文进行采样,增加索引,基于TF-IDF,对专有名词,主题标签和用户名,权重增加
③基于文本之间的余弦相似性以及局部敏感的哈希方法
④基于阈值的增量聚类+SVM
⑤基于主题词,采用自上而下的分层划分聚类方法将主题词划分为事件,采用最大加权二部图创建事件链,跟踪事件变化
⑥基于从Twitter生成的单个单词构建的离散小波信号聚类
⑦基于哈希标签的连续小波变换,并结合使用LDA
(2)指定事件
①确定有争议的事件
②因子图模型
③CRF模型
④基于社会地理事件检测系统
⑤ETree
⑥TSCAN

7.Twitter事件的检测方法

(1)无监督检测
①Twitter数据动态变化,随着时间推移会出现新的事件,故无需先验知识,故K-means,K-median和K-medoid方法不合适
②基于阈值的在线聚类方法
③基于图的聚类方法
④考虑隐马尔可夫模型
⑤短语增强:找到包含该主题的最常用短语
⑥根据相对词频,主题标签,超链接,答复和追随者数量,帖子长度,缩写和大写来扩展查询
(2)监督检测方法
①前提:特定事件
②朴素贝叶斯
③SVM
④梯度提升决策树
⑤考虑词频,变体,相关词,特殊关键字,以及围绕关键词的上下文信息,相对位置信息,POS标记,主要实体提取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值