华北
- 作品数:5 被引量:8H指数:2
- 供职机构:中国科学技术大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术经济管理更多>>
- 基于代表样本动态生成的中文网页分类被引量:3
- 2006年
- 针对中文网页分类问题该文设计了一种新的基于代表样本动态生成的分类算法。算法通过对原始训练样本集的训练逐个生成代表样本,并充分利用被裁剪训练样本的有效信息,对已生成的代表样本进行多次调整,从而使代表样本更具有代表性。基于该算法的中文网页分类器的实验结果表明,算法有效地压缩了原始训练样本集,提高了分类效率,同时保持了分类的准确性;具有较好的分类性能。
- 华北曹先彬
- 关键词:K-近邻
- 基于代表样本动态生成的快速文本分类
- 2007年
- κ-近邻作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用,但是这种方法计算量较大。针对κ-近邻法的不足之处,提出了一种新的快速文本分类方法,通过对原始训练样本集的训练生成代表样本,再根据原始训练样本与已生成代表样本之间的分布状况,对已生成的代表样本进行多次调整,从而使代表样本更具有代表性。这种方法有效地压缩了原始训练样本集,提高了分类效率;同时,由于代表样本的分布更加合理,可以提高分类的准确性。实验结果显示,此方法具有很好的分类性能。
- 华北曹先彬
- 关键词:文本分类
- 消息中间件研究及其在烟草一号系统中的应用
- 烟草行业是国民生产总值的一个重要来源,在国民经济中起着重要的举足轻重的作用。因为烟草行业覆盖的地域广大,企事业单位众多,业务信息数据复杂而繁多,所以为了促进行业的快速发展,就必须在行业内建立起安全、可靠、快速的信息数据传...
- 华北
- 关键词:烟草行业消息中间件数据传输管理信息系统
- 文献传递
- Web信息处理中的网页分类算法研究
- 本文针对中文网页的分类问题,提出了一种基于代表样本动态生成的快速文本分类方法,并构建了一个网页分类的原型系统。主要工作包括:
1、在详细分析κ-近邻分类法两个特性的基础上,提出了一种新的基于代表样本动态生成的分...
- 华北
- 关键词:互联网络中文网页网页分类
- 文献传递