陈洪平
- 作品数:4 被引量:2H指数:1
- 供职机构:苏州大学计算机科学与技术学院智能化信息处理技术研究所更多>>
- 发文基金:江苏省重大科技支撑与自主创新项目国家自然科学基金江苏省“六大人才高峰”高层次人才项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种Deep Web聚焦爬虫爬行策略
- 实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径,Deep Web爬虫是Deep Web数据源集成的关键组成部分,提出一种针对结构化Deep Web的聚焦爬虫爬行策略,通过对查询接口的...
- 蔡欣宝陈洪平赵朋朋崔志明
- 关键词:WEB数据源聚焦爬虫决策树分类器主题相关性
- 文献传递
- 一种Deep Web聚焦爬虫爬行策略被引量:2
- 2009年
- 实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径.Deep Web爬虫是Deep Web数据源集成的关键组成部分.提出一种针对结构化Deep Web的聚焦爬虫爬行策略.通过对查询接口的特征分析来判断Deep Web数据源的主题相关性.同时,在评价链接重要性时,综合考虑了页面内容的主题相关性和链接的相关信息.实验证明该方法是有效的.
- 蔡欣宝陈洪平赵朋朋崔志明
- 关键词:WEB数据源聚焦爬虫决策树分类器
- 复杂Web页的Wrapper自动化生成技术研究
- 2010年
- 针对基于模板生成Web页的基本特点,结合Ontology知识,探索Deep Web垂直搜索中,复杂Web页面的Wrapper自动化生成的解决方案.对实际复杂Web页面抽取的实验结果表明,该方法达到了较高的抽取准确率.
- 陈洪平方巍李林崔志明
- 关键词:本体数据抽取包装器
- 基于主题概念实现对购物网站的自动主题分类
- 2010年
- 基于传统的关键词统计的分类方法难以正确识别网页的主题,从而难以实现按主题进行分类。为了有效地对Web上的结构化数据源进行主题分类,结合语义知识,将基于概念的主题分类方法,应用到网络购物网站数据源的自动主题分类中。实验表明,该方法能够较好地提高主题分类的精度。
- 陈洪平方巍黄黎崔志明
- 关键词:本体主题网页分类