辽宁省教育厅基金资助项目(2009B140)
- 作品数:3 被引量:10H指数:3
- 相关作者:范纯龙余周华徐蕾袁滨李华更多>>
- 相关机构:沈阳航空工业学院沈阳航空航天大学更多>>
- 发文基金:辽宁省教育厅基金资助项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于陷阱技术的网络爬虫检测被引量:4
- 2010年
- 网络爬虫作为一种网络资源获取程序,在被搜索引擎等领域广泛应用的同时,也带来隐私泄露、版权纠纷等诸多问题,因此需要检测和约束Spider的行为。总结了现有的Spider检测方法,介绍了陷阱技术在Spider检测中的应用现状,提出利用有结构的陷阱技术,构建Spider检测的网站模型和相应的检测算法,并对该方法的检测能力进行了分析和评价,最后在通过实验系统验证陷阱检测方法与人工分析结论相一致的基础上进一步分析了该检测结果的成因。
- 范纯龙袁滨余周华徐蕾
- 关键词:召回率
- 利用图片类日志信息改进会话识别质量被引量:3
- 2010年
- 数据预处理是Web日志挖掘的基础,而会话识别则是数据预处理的关键步骤,其质量严重影响Web日志挖掘的结果。在分析现有会话识别方法的基础上,提出了利用数据预处理中废弃的图片等日志数据,并结合扩展Web图结构,从页面分组规则和路径补全算法两个方面改进会话识别质量,并通过实验证实该方法对改善会话识别质量是有效的。
- 范纯龙姜宏飞李华
- 关键词:会话识别数据预处理数据清洗
- 基于功能语义单元的博客评论抽取技术被引量:3
- 2011年
- 博客作为一类重要的网络信息资源,其评论信息抽取是舆情分析等研究工作的基础。总结了当前主流的博客评论抽取算法,介绍了页面结构在信息抽取中的应用,并结合人理解网页时充分利用"首页"等指示性短语的特点,提出利用具有明确语义和功能指示作用的功能语义单元来抽取评论信息的技术;详细介绍了抽取过程中涉及的页面结构线性化、功能语义单元识别、正文识别和评论抽取算法等内容。最后,通过实验证明,该技术在博客的正文和评论信息抽取上能取得良好效果。
- 范纯龙夏佳肖昕吕红伟徐蕾
- 关键词:信息抽取