A SURVEY OF TECHNIQUES FOR EVENT DETECTION IN TWITTER
这篇文章是在阅读笔记003的参考文献中溯源而得,文章年限比较久了,但其中的一些事件检测技术还是比较具有代表性,本文只关注其中事件检测的技术。
论文下载链接
事件检测
1.传统媒体中的事件检测
事 件 检 测 阶 段 { 数 据 预 处 理 数 据 表 示 数 据 组 织 或 聚 类 事件检测阶段 \begin{cases} 数据预处理\\ 数据表示\\ 数据组织或聚类 \end{cases} 事件检测阶段⎩⎪⎨⎪⎧数据预处理数据表示数据组织或聚类
事 件 检 测 分 类 { 回 顾 性 事 件 检 测 ( R E D ) — — 从 历 史 记 录 中 发 现 以 前 未 识 别 的 事 件 新 事 件 检 测 ( N E D ) — — 实 时 从 实 时 数 据 流 中 发 现 新 事 件 事件检测分类 \begin{cases} 回顾性事件检测(RED)——从历史记录中发现以前未识别的事件\\ 新事件检测(NED)——实时从实时数据流中发现新事件\\ \end{cases} 事件检测分类{回顾性事件检测(RED)——从历史记录中发现以前未识别的事件新事件检测(NED)——实时从实时数据流中发现新事件
1.数据表示
使用词向量表示
问题:忽略单词时间顺序,文本语义,句法特征(如命名实体和语法)
命名实体向量:4ws——何人何事何时何地
概率表示:结合内容和时间
2.评价指标
相 似 性 指 标 { 欧 氏 距 离 皮 尔 逊 相 关 系 数 余 弦 相 似 性 H e l l i n g e r 距 离 聚 类 指 数 相似性指标 \begin{cases} 欧氏距离\\ 皮尔逊相关系数\\ 余弦相似性\\ Hellinger距离\\ 聚类指数\\ \end{cases} 相似性指标⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧欧氏距离皮尔逊相关系数余弦相似性Hellinger距离聚类指数
3.RED检测
迭代聚类算法,需要整个文档集合
分层聚类算法(HAC)
k-means
k-median
k-means++
4.NED检测
必须在文本到达时提供决策
基于增量(贪婪)算法
使用滑动时间窗口
限制每个文档的术语数
限制保留的总术语数
采用并行处理
RED与NED都是基于文本的,旨在识别语料库中曾经重要性不高或现在迅速增长的主题
5.基于特征
无限状态自动机,概率自动机的状态对应于每个单词的频率,状态转换来表示突发事件,对应于单词频率的显著变化。
离散傅里叶变换(无法识别时间段)
高斯混合模型
n-gram
6.Twitter事件
(1)未指定事件
①朴素贝叶斯提取有效信息,基于TF-IDF及余弦相似度聚类
②使用预定义的搜索查询对推文进行采样,增加索引,基于TF-IDF,对专有名词,主题标签和用户名,权重增加
③基于文本之间的余弦相似性以及局部敏感的哈希方法
④基于阈值的增量聚类+SVM
⑤基于主题词,采用自上而下的分层划分聚类方法将主题词划分为事件,采用最大加权二部图创建事件链,跟踪事件变化
⑥基于从Twitter生成的单个单词构建的离散小波信号聚类
⑦基于哈希标签的连续小波变换,并结合使用LDA
(2)指定事件
①确定有争议的事件
②因子图模型
③CRF模型
④基于社会地理事件检测系统
⑤ETree
⑥TSCAN
7.Twitter事件的检测方法
(1)无监督检测
①Twitter数据动态变化,随着时间推移会出现新的事件,故无需先验知识,故K-means,K-median和K-medoid方法不合适
②基于阈值的在线聚类方法
③基于图的聚类方法
④考虑隐马尔可夫模型
⑤短语增强:找到包含该主题的最常用短语
⑥根据相对词频,主题标签,超链接,答复和追随者数量,帖子长度,缩写和大写来扩展查询
(2)监督检测方法
①前提:特定事件
②朴素贝叶斯
③SVM
④梯度提升决策树
⑤考虑词频,变体,相关词,特殊关键字,以及围绕关键词的上下文信息,相对位置信息,POS标记,主要实体提取