汪金苗 作品数:4 被引量:23 H指数:2 供职机构: 山东理工大学计算机科学与技术学院 更多>> 发文基金: 山东省自然科学基金 国家自然科学基金 博士科研启动基金 更多>> 相关领域: 自动化与计算机技术 更多>>
一种面向数据密集型计算环境的聚类算法 被引量:3 2013年 针对数据密集型计算环境下数据具有海量、分布、异构、高速变化等特点,分析传统的基于密度的分布式聚类(Density Base Distributed Clustering,DBDC)算法,借助MapReduce编程模型,提出一种新的分布式聚类算法,采用局部和全局的方式处理海量、异构数据,解决具有以上特点的数据密集型计算环境下数据的分析挖掘问题。得出算法的复杂度为O((nlog2n)/p),实验验证在数据量与节点数变化时算法具有较高的稳定性和可伸缩性,与原算法对比该算法具有较高的准确度。 钱鑫 张龙波 田爱奎 邓齐志 汪金苗关键词:数据密集型计算 分布式聚类 不确定数据频繁项集挖掘方法综述 被引量:19 2011年 近几年来,不确定数据广泛出现在传感器网络、Web应用等领域中。不确定数据挖掘已经成为了新的研究热点,主要包括聚类、分类、频繁项集挖掘、孤立点检测等方面,其中频繁项集挖掘是重点研究的问题之一。综述了传统的频繁项集挖掘的两类基本算法,分析了在此基础上提出的适用于不确定数据以及不确定数据流的频繁项集挖掘的方法,并探讨了今后可能的研究方向。 汪金苗 张龙波 邓齐志 王凤英 王勇关键词:不确定数据 频繁项集 数据挖掘 基于不确定数据的频繁项集挖掘算法的研究 近几年来,不确定性数据广泛出现在传感器网络,Web应用等领域中,对不确定性数据挖掘算法的研究已经成为了数据挖掘领域的新热点。不确定性数据挖掘主要包括聚类、分类、频繁项集挖掘、孤立点检测等方面,其中频繁项集挖掘是重点研究的... 汪金苗关键词:频繁项集 不确定数据 一种不确定性数据中最大频繁项集挖掘方法 被引量:1 2013年 不确定性数据挖掘已经成为数据挖掘领域的新热点,频繁项集挖掘是重点研究的问题之一.但是目前出现的挖掘算法大多集中在完全频繁项集,而用于最大频繁项集和频繁闭项集的算法尚不多见.文中研究了一种基于UF-Tree的用于不确定性数据中挖掘最大频繁项集的算法,该挖掘过程分为两个步骤,第一步先得到以频繁1-项集为后缀的局部最大频繁项集,第二步得到所有的全局最大频繁项集,实验证明该算法性能良好且特别适用于稠密型、事务长度较小的数据集. 汪金苗 张龙波 闫光辉 王凤英关键词:不确定数据 最大频繁项集