热线电话:13121318867

登录
首页精彩阅读基于Hadoop MapReduce的分布式数据流聚类算法研究
基于Hadoop MapReduce的分布式数据流聚类算法研究
2014-12-01
收藏

基于Hadoop MapReduce的分布式数据流聚类算法研究


基于Hadoop MapReduce的分布式数据流聚类算法研究

随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇。实验结果表明,PGDC-Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream。

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询