祝宇
- 作品数:3 被引量:9H指数:2
- 供职机构:中国科学院过程工程研究所更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术化学工程更多>>
- 支持向量机在化学主题爬虫中的应用被引量:9
- 2006年
- 爬虫是搜索引擎的重要组成部分,它沿着网页中的超链接自动爬行,搜集各种资源。为了提高对特定主题资源的采集效率,文本分类技术被用来指导爬虫的爬行。本文把基于支持向量机的文本自动分类技术应用到化学主题爬虫中,通过SVM 分类器对爬行的网页进行打分,用于指导它爬行化学相关网页。通过与基于广度优先算法的非主题爬虫和基于关键词匹配算法的主题爬虫的比较,表明基于SVM分类器的主题爬虫能有效地提高针对化学Web资源的采集效率。
- 祝宇夏诏杰聂峰光郭力
- 关键词:文本分类搜索引擎
- 基于支持向量机方法的文本分类技术研究及其在化学领域中的应用
- 随着网络的快速发展,Internet正在成为化学信息的主要载体。然而Web信息的急速膨胀,对化学工作者有效利用化学网络资源提出了巨大挑战。面向化学主题的专业搜索引擎可以帮助专业用户更快更准地定位到所需资源。基于统计学习的...
- 祝宇
- 关键词:文本分类支持向量机主题爬虫WEB信息检索
- 利用未标记数据提高SVM分类器性能的研究被引量:2
- 2006年
- 监督学习算法的一个主要困难在于需要大量标记过的训练集数据,采用人工的方法不够现实。文章提出了SVM分类器在少量标记训练样本情况下,采用Rocchio法和KNN方法从大量的未标记数据中,挑选相似度较高、区别度较大的数据加入到训练集中,弥补训练样本的不足。实验表明该算法有效地利用了丰富的未标记数据,减少了人工标记量,较好地提高了SVM分类器的性能。
- 祝宇聂峰光郭力
- 关键词:文本分类K近邻法