江苏省自然科学基金(BK2005412)
- 作品数:5 被引量:57H指数:3
- 相关作者:姜远周志华眭俊明薛晓冰韩洁凌更多>>
- 相关机构:南京大学更多>>
- 发文基金:江苏省自然科学基金国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于模型似然的超1-依赖贝叶斯分类器集成方法被引量:3
- 2007年
- 平均1-依赖贝叶斯分类器(AODE)是一种重要的贝叶斯学习方法,但由于其平等看待各个超1-依赖贝叶斯分类器输出,可能对最终结果造成不好影响.本文将每个超1-依赖贝叶斯分类器看作一个产生式模型,并通过模型似然度量超1-依赖贝叶斯分类器的性能,进而提出基于模型似然的超1-依赖贝叶斯分类器集成方法(LODE).与AODE 相比,LODE 仅增加较少计算量却显著提高分类性能.
- 李楠姜远周志华
- 关键词:数据挖掘贝叶斯学习朴素贝叶斯
- 数据流挖掘技术被引量:2
- 2007年
- 简要概述了数据流挖掘技术,探讨了数据流的特点.数据流的概念漂移现象,给数据流上的数据挖掘带来很大困难.由于计算机的内存有限,数据窗口技术只针对最近的数据,而最近的数据常常导致数据挖掘系统中的分类器过配,文中介绍了解决这一问题的方法,并讨论了数据流挖掘技术的应用.
- 姜远刘力平
- 关键词:数据挖掘数据流
- 基于词频分类器集成的文本分类方法被引量:25
- 2006年
- 提出了一种基于词频分类器集成的文本分类方法·词频分类器是在对文本中的单词和它在每个文本中出现的频率进行统计后得到的简单分类器·虽然词频分类器本身泛化能力不强,但它不仅计算代较小,而且在训练样本甚至类别增加时易于进行更新,而整个学习系统的泛化能力可以由集成学习机制来提高,因此,词频分类器很适合用做集成学习的基分类器·在集成时,使用了改进的AdaBoost算法,加入了一种强制重新分布权的机制,避免算法过早停止,更加适合文本分类任务·在标准文集Reuters-21578上的实验结果表明,该方法能取得很好的效果·
- 姜远周志华
- 关键词:文本分类ADABOOST
- 基于多示例学习技术的Web目录页面链接推荐被引量:8
- 2007年
- 在Web目录页面中,向用户推荐其感兴趣的链接有助于用户高效地访问网络资源.然而,用户往往不愿花费很多时间来标记训练样本,其提供的数据可能只能说明某个目录网页是否包含其感兴趣的内容,而不能明确标示出其感兴趣的具体链接.由于训练数据中缺乏对链接的标记,但预测时却需要找出用户感兴趣的链接,这就使得Web目录页面链接推荐问题相当困难.CkNN-ROI算法被提出用于解决该问题.实验表明,CkNN-ROI算法在解决这一困难的链接推荐问题上比其他一些算法更为有效.
- 薛晓冰韩洁凌姜远周志华
- 关键词:多示例学习数据挖掘WEB挖掘
- 基于频繁项集挖掘的贝叶斯分类算法被引量:20
- 2007年
- 朴素贝叶斯分类器是一种简单而且高效的分类学习算法,但是它所要求的属性独立性假设在真实世界应用中经常难以满足.为了放松属性独立性约束以提高朴素贝叶斯分类器的泛化能力,研究人员进行了大量的工作.提出了一种基于频繁项集挖掘技术的贝叶斯分类学习算法FISC(frequent item sets classifier).在训练阶段,FISC找到所有频繁项集并计算可能用到的概率估值.在测试阶段,FISC对于测试样本包含的每个项集构造一个分类器,通过集成这些分类器来给出预测结果.实验结果验证了FISC的有效性.
- 眭俊明姜远周志华
- 关键词:贝叶斯分类频繁项集挖掘