file-type

动态海量环境下混合属性数据的双层索引双重聚类方法

下载需积分: 9 | 691KB | 更新于2024-07-17 | 157 浏览量 | 0 下载量 举报 收藏
download 立即下载
本文主要探讨了在动态的海量信息环境下,如何设计一种高效且适应性强的聚类存储结构和索引结构,以支持智能信息处理。针对混合属性数据点集的特点,陈新泉教授提出了一个名为“面向混合属性数据点集的基于双层索引结构的双重聚类方法”的创新研究。 首先,作者强调了在互联网、物联网和车联网等应用场景中,动态数据处理的挑战,特别是如何快速处理数据概化表示和核心数据提取。为了应对这些挑战,他们开发了一种独特的双层索引系统,这种系统允许对数据进行动态管理,同时保持插入和删除操作的高效性。 该方法的核心组成部分包括五个关键算法:双重近邻无向图的构造算法(算法1)和其改进版本(算法1*),基于分离集合并的双重近邻图聚类算法(算法2)、广度优先搜索(BFS)和深度优先搜索(DFS)驱动的双重近邻图聚类算法(算法3和4),以及最小生成树(MST)为基础的初级聚类簇合并算法(算法5)。这些算法协同工作,形成一个全面的双重聚类框架。 实验部分通过人工数据集和多个UCI标准数据集进行了验证,结果显示,尽管算法2、3和4采用了不同的搜索策略,但它们在聚类精度上达到了一致的结果。尤其当数据集具有明显的聚类结构且不受近邻噪声干扰时,这种方法展现出优于k-means和AP算法的性能,证明了其有效性和实用性。 文章最后对未来的研究方向提出了几点展望,旨在进一步提升该方法的效率和适用范围,并在实际应用中挖掘更多的价值。这些可能包括改进算法的效率、拓展到更复杂的实时环境,以及探索与其他数据处理技术的集成可能性。 这篇论文对于混合属性数据的动态聚类问题提供了一种新颖且有效的解决方案,对于数据密集型的智能信息处理领域具有重要的理论和实践意义。

相关推荐

weixin_39841856
  • 粉丝: 495
上传资源 快速赚钱