中央高校基本科研业务费专项资金(QN2009092) 作品数:6 被引量:65 H指数:3 相关作者: 张阳 王勇 李伟卫 丁悦 刘明建 更多>> 相关机构: 西北农林科技大学 西北工业大学 南京大学 更多>> 发文基金: 中央高校基本科研业务费专项资金 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
DTU-PU:针对不确定数据PU学习的决策树 被引量:2 2013年 不确定数据的PU学习在现实世界的许多应用中,如在传感器网络、市场分析和医学诊断等领域普遍存在,提出了针对不确定数据PU学习的决策树算法。基于POSC45中信息增益的计算方法,引入UDT中处理连续属性的不确定数据时用到的不确定数据区间及概率分布函数的概念,提出了一种能处理连续属性的不确定数据PU学习的决策树算法DTU-PU(Decision Tree for Uncertain data with PU-learning)。在UCI数据集上的实验表明,DTU-PU具有较好的分类准确率和健壮性。 张星 张阳 刘明建 王勇关键词:决策树 uPOSC4.5:一种针对不确定数据的PU学习决策树算法 目前绝大多数在PU学习场景下的学习算法都只能处理确定数据,然而在现实世界的许多应用中,如在传感器网络、市场分析和医学诊断等领域,数据的不确定性是普遍存在的.基于针对精确数据的PU学习算法POSC4.5,提出了PU概率信息... 张潮 李晨 王勇 张阳关键词:不确定数据 决策树 文献传递 基于分布式数据仓库的分类分析研究 被引量:10 2013年 针对GAC-RDB分类算法只能应用于单机版数据仓库的局限性,为了能够更方便、快捷地在云计算平台上开展数据挖掘工作,基于分布式数据仓库HBase,结合GAC-RDB分类算法的实现机理,制定适合分布式平台的运行策略,使用原生HiveQL语言提出了一种分布式GAC-RDB分类算法。实验显示,随着集群中节点的不断增加,算法的运行时间稳步下降。结果表明,在保证算法准确率的前提下,分布式数据仓库能够有效提高GACRDB分类算法的扩展性和运行效率,相对于MapReduce框架,HiveQL语言降低了对数据挖掘从业人员的技术要求,更大程度地减少了算法的开发时间,为挖掘海量数据提供了新的解决方案。 李伟卫 李梅 张阳 申爱丽关键词:数据挖掘 分布式数据仓库 HADOOP HBASE 基于能量函数和模块最优化的不确定图聚类 被引量:2 2012年 为证明不确定性的存在对聚类结果不可忽略的影响,改进了基于能量模型布局和模块化聚类的算法LinLogLayout,使之可以处理不确定图数据。提出了不确定图的定义并产生满足Zipf分布的不确定图数据,对确定算法进行不确定化使之满足应用要求。实验结果表明,不论是在确定图数据、不确定图数据还是人工数据集、真实数据集上,改进的LinLogLayout算法都具有较好的聚类效果。实验结果也表明,不确定性的存在对聚类结果具有不可忽略的影响。 丁悦 张阳 王勇 李伟卫基于MapReduce的海量数据挖掘技术研究 被引量:35 2013年 MapReduce是一种编程模型,可以运行在异构环境下,编程简单,不必关心底层实现细节,用于大规模数据集的并行运算。将MapReduce应用在数据挖掘的三个算法中:朴素贝叶斯分类算法、K-modes聚类算法和ECLAT频繁项集挖掘算法。实验结果表明,在保证算法准确率的前提下,MapReduce可以有效提高海量数据挖掘工作的效率。 李伟卫 赵航 张阳 王勇关键词:云计算 数据挖掘 MAPREDUCE 图数据挖掘技术的研究与进展 被引量:14 2012年 生物信息学(蛋白质结构分析、基因组识别)、社会网络(实体间的联系)、Web分析(Web链接结构分析、Web内容挖掘和Web日志搜索)以及文本信息检索等的迅速发展积累了大量图数据,对于图数据的挖掘逐渐成为研究领域的热点。一些诸如聚类、分类、频繁模式挖掘的传统数据挖掘研究逐渐拓展到图数据领域。通过介绍现阶段图数据挖掘技术的研究进展,总结了图数据挖掘的特点、现实意义、主要问题以及应用场景,讨论并预测了图数据,尤其是不确定图数据研究的发展趋势和热点。 丁悦 张阳 李战怀 王勇关键词:数据挖掘 聚类 代价敏感不确定决策树的不确定单批测试算法研究 被引量:2 2012年 不确定数据(uncertain data)广泛存在于现实世界的各个领域.研究界开始逐渐重视不确定数据的研究.目前,针对不确定数据的代价敏感决策树(CSDTU)的研究中只能进行简单测试,其过多的测试造成很大的代价浪费.本文扩展确定数据上代价敏感决策树的单批测试算法,将其应用到代价敏感不确定决策树(CSDTU).通过不确定数据模型中属性值的概率势(ProbabilityCardinality)计算树属性选择过程中的代价,实现了不确定单批测试算法.在UCI数据集上的实验表明,不确定单批测试优于简单测试,可以有效的降低测试的总代价,提升分类器效果,具有很好的合理性和实用性. 刘明建 张阳 王勇关键词:不确定数据 决策树