摘要:数据流挖掘要求算法在占用少量内存空间的前提下快速地处理数据并且自适应概念漂移,据此提出一种面向高速数据流的集成分类器算法。该算法将原始数据流沿着时间轴划分为若干数据块后,在各个数据块上计算所有类别的中心点和对应的子空间;此后将各个数据块上每个类别的中心点和对应的子空间集成作为分类模型,并利用统计理论的相关知识检测概念漂移,动态地调整模型。实验结果表明,该方法能够在自适应数据流概念漂移的前提下对数据流进行快速的分类,并得到较好的分类效果。 关键词:概念漂移;数据流;子空间;分类;集成 【高速数据流集成分类器算法】是针对大数据流挖掘中的一种高效分类方法,它特别关注在有限内存资源下,快速处理数据并能适应数据中的概念漂移现象。数据流挖掘通常涉及实时或近实时的数据处理,例如从互联网、传感器网络或交易系统中收集的数据,这些数据流具有速度快、无限大且不断变化的特性。 该算法的核心思想是将原始数据流按照时间轴划分成多个数据块。在每个数据块中,算法计算所有类别(或者说目标变量的各个值)的中心点,这些中心点代表了类别在数据空间中的平均或典型特征。同时,计算与这些中心点相关的子空间,子空间则包含了类别数据的主要分布区域。通过这种方式,算法构建了一个基于每个数据块的分类模型集合。 接下来,算法利用统计理论来检测概念漂移。概念漂移是指随着时间推移,数据的分布或模式发生了变化。当检测到漂移时,算法会动态调整模型,以保持对新概念的适应性。这种自适应能力对于确保分类器的性能至关重要,因为不变的模型可能会导致分类错误。 集成学习在处理数据流时扮演了重要角色。通过结合多个分类器的预测,集成分类器可以提高整体的准确性和稳定性。文献中提到,如Hansen等人和Wang等人的工作,都证实了集成方法在应对概念漂移时的优越性。例如,Streaming Ensemble Algorithm (SEA) 是一种能够适应数据流概念漂移的集成学习算法,它展示了集成学习在处理动态数据流方面的潜力。 为了优化集成学习的效果,研究者们对权重设计和集成策略进行了深入探索。权重设计通常涉及到如何根据分类器的性能动态分配其在集成中的影响力,而集成策略则关注如何组合多个分类器的决策来达到最佳的整体效果。例如,有些方法可能采用投票机制,有些则可能基于性能评估指标动态更新分类器的权重。 高速数据流集成分类器算法是一种针对大数据流挖掘的解决方案,它通过分块、中心点计算、子空间建模和概念漂移检测,实现了在有限内存下对动态变化数据的快速、自适应分类。这种方法不仅提升了分类效率,还保证了在概念漂移情况下的分类效果,为实时分析和决策支持提供了有效工具。






















剩余12页未读,继续阅读

- yanchunmiao2012-12-122012年发表的,还是挺新的,很有帮助

- 粉丝: 0
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 可编程序控制器的编程方法与工程应用习题集.doc
- Web前端研发工程师编程能力飞升之路.doc
- 基于PLC的水厂变频恒压供水系统大学本科方案设计书定稿.doc
- 单片机的TDS水质测试仪研究与设计开发.doc
- 同步发电机励磁电源设计(软件部分)开题报告.doc
- 应对国家计算机高新技术考试的教学设想.docx
- 电气工程自动化及其节能设计的应用.docx
- 动态协议的网络视频监控系统的方案设计与实现生课程方案设计.doc
- 中央电视大学计算机机考安装.doc
- 以大数据为核心的智慧企业信息系统变革.docx
- 单片机的步进电机控制系统的设计本科课程设计.doc
- 四格项目管理人员一览表.doc
- 论知识经济环境下的工程项目管理.docx
- 领域时代商业项目管理推介书.doc
- 单片机X键盘计算器课程实施方案设计.doc
- winmail 4.8白金


