杨晏
- 作品数:4 被引量:4H指数:1
- 供职机构:西北师范大学计算机科学与工程学院更多>>
- 发文基金:国家自然科学基金甘肃省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于双层网格和密度的数据流聚类算法研究
- 自上个世纪后期以来,数据的获取技术日益发展壮大,在数据库已有的技术之上不断的推陈出新,信息的日益膨胀改变着传统的数据提取方式。数据流逐渐成为一种主流的数据形式,如何从中快速高效提取有价值的信息,逐渐成为数据挖掘领域的热点...
- 杨晏
- 关键词:数据挖掘数据流聚类聚类分析
- 文献传递
- 基于双层网格和密度的数据流聚类算法被引量:3
- 2014年
- 传统的基于网格的数据流聚类算法在同一粒度的网格上进行聚类,虽然提高了处理速度,但聚类准确性较低。针对此问题,提出一种新的基于双层网格和密度的数据流聚类算法DBG Stream。在2种粒度的网格上对数据流进行聚类,并借鉴CluStream算法的思想,将聚类过程分为2个阶段。在线过程中利用粗粒度的网格单元形成初始聚类,离线过程中在细粒度网格单元上,对位于簇边界的网格单元进行二次聚类以提高聚类精度,并实现了关键参数的自动设置,通过删格策略提高算法效率。实验结果表明,DBG Stream算法的聚类精确度较D Stream算法有较大提高,有效解决了传统基于网格聚类算法的聚类精度较低的问题。
- 王治和杨晏
- 关键词:数据挖掘数据流聚类聚类分析
- 基于半监督学习的数据流混合集成分类算法被引量:1
- 2013年
- 当前已有的数据流分类模型都需要大量已标记样本来进行训练,但在实际应用中,对大量样本标记的成本相对较高。针对此问题,提出了一种基于半监督学习的数据流混合集成分类算法SMEClass,选用混合模式来组织基础分类器,用K个决策树分类器投票表决为未标记数据添加标记,以提高数据类标的置信度,增强集成分类器的准确度,同时加入一个贝叶斯分类器来有效减少标记过程中产生的噪音数据。实验结果显示,SMEClass算法与最新基于半监督学习的集成分类算法相比,其准确率有所提高,在运行时间和抗噪能力方面有明显优势。
- 任钊婷王治和杨晏
- 关键词:数据流半监督学习概念漂移
- 潜在语义分析在词汇相似度中的应用
- 2014年
- 词汇相似度是信息检索、机器翻译、自动文摘、自动问答等应用研究的基础,它是自然语言处理领域中的重要研究课题。本论述研究潜在语义分析(Latent Semantic Analysis,LSA)在词汇相似度中的应用。
- 马海昌赵学锋杨晏王济深
- 关键词:词汇相似度潜在语义分析