沈抖
- 作品数:4 被引量:45H指数:3
- 供职机构:清华大学信息科学技术学院计算机科学与技术系更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 网页分类技术研究及系统实现
- 万维网上数据量的急剧增加,使得人工从网上获取有效的信息变得十分困难.网页分类技术成为解决这个矛盾的关键技术之一.本文介绍的网页分类系统(HCS<'[1]>)综合考虑了网页中的文本信息和结构信息,用Naive Bayes和...
- 沈抖孙建涛丛艳陆玉昌
- 关键词:网页分类特征提取贝叶斯算法SVM支持向量机
- 文献传递
- 网页分类技术被引量:37
- 2004年
- 网页分类是使用机器学习的方法实现网页类别的自动标注。回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法。使用纯文本分类技术处理网页是不合理的。基于概率模型的方法和关系学习方法计算量大,关系学习方法学习结果的可解释性好,支持向量机方法分类准确率高,但核函数的构造和大规模数据集的训练都是该算法的难题。应该采用多种指标对网页分类算法进行评价。
- 孙建涛沈抖陆玉昌石纯一
- 关键词:网页分类文本分类网络挖掘
- 面向网页分类的网页摘要方法被引量:6
- 2006年
- 网页分类是网络挖掘的重要研究内容之一.与文本分类相比,网页分类面临的困难更多.去除网页中的噪声信息可以提高网页分类的精度,基于摘要的网页分类方法利用了这一思想.本文对三种传统的网页摘要方法进行了分析和改进,提出了Content Body摘要方法以及基于四种摘要方法的混合摘要方法;在此基础上,进行了大量基于摘要的网页分类实验.实验结果表明,所有的摘要方法都可以提高分类效果,其中混和摘要方法效果最好,可以使分类的F1值得到12.9%的改进.
- 鲁明羽沈抖郭崇慧陆玉昌
- 关键词:网页分类CONTENTBODY
- 万维网上数据处理方法的研究
- 万维网自诞生以来,发展十分迅速,已经成为人类交流的重要媒体、人类数据的巨大仓库和人类知识的潜在源泉。因此如何使用户快速便捷的获取、处理、利用万维网上的数据成为人类必须解决的问题。本论文从网页分类、网页摘要以及Email聚...
- 沈抖
- 关键词:网络挖掘网页分类网页聚类查询日志GSP
- 文献传递