白洋
- 作品数:3 被引量:13H指数:2
- 供职机构:北京交通大学计算机与信息技术学院更多>>
- 发文基金:国家自然科学基金北京市自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种面向不平衡数据流的集成分类算法被引量:3
- 2018年
- 大部分数据流算法都是基于类分布大致平衡这一假设的,然而在现实世界中数据流中类的分布往往是不平衡的.同时,数据流中目标概念可能会随着时间发生变化,即概念漂移.本文针对数据流中的概念漂移和类不平衡问题,提出了一种基于集成的不平衡数据流分类算法.在分类之前加入采样方法应对类不平衡问题,并采取有效的基分类器更新和加权策略应对概念漂移现象,从而提高分类器的性能.针对本文所提出的算法,和几种经典学习算法,在人工合成和真实数据集上进行了广泛的对比实验.实验结果表明本文所提出的算法,其整体分类性能优于其他算法,更能适应存在概念漂移和类不平衡的数据流环境.
- 孙艳歌王志海白洋
- 关键词:数据流概念漂移
- 基于图的概念重现发现与预测被引量:1
- 2017年
- 概念漂移是数据流挖掘中具有挑战性的问题.当概念漂移发生后,原有分类模型的分类正确率会显著下降,因此需要及时发现并调整模型以适应这些改变.概念重现是概念漂移的特殊情况,然而已有的算法大多未能充分考虑这种状况.为此,提出一种能够处理重现的概念检测方法.试验结果表明,该方法能够以较低的延迟和较低的误报率检测到概念漂移,并且可以识别重现的概念,很大程度上提升了分类器的分类正确率.
- 白洋王志海孙艳歌
- 关键词:数据流数据挖掘概念漂移
- 基于信息熵的数据流自适应集成分类算法被引量:10
- 2017年
- 数据流分类模型是面向连续变化的实时分析的基本问题.目前大多数的数据流算法只针对突变式或渐变式概念漂移进行处理的,并未充分考虑概念会重现的特点.为此提出了一种具有概念漂移检测机制的自适应集成算法.从信息熵的角度出发,用Jensen-Shannon散度度量相邻两个窗口间数据分布的距离,不仅能检测出不同类型的概念漂移,且能有效地发现重现的概念;采用分类器池机制来保存历史概念,从而实现对概念的重用.将所提出的算法与几种经典的学习算法在人工合成和真实数据集上进行了广泛的对比实验.实验结果表明,所提出的算法在平均分类准确率上具有明显的优势,比其他集成算法消耗更少的时间,适合多种类型概念漂移的环境,并具有较高的抗噪性.
- 孙艳歌王志海原继东白洋
- 关键词:数据流概念漂移集成分类器信息熵