您的位置: 专家智库 > >

冯艳卉

作品数:4 被引量:10H指数:2
供职机构:苏州大学计算机科学与技术学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 1篇学位论文
  • 1篇会议论文

领域

  • 4篇自动化与计算...

主题

  • 4篇网页
  • 3篇语料
  • 3篇平行语料
  • 2篇引擎
  • 2篇搜索
  • 2篇搜索引擎
  • 2篇索引
  • 2篇网页识别
  • 2篇WEB挖掘
  • 1篇信息挖掘
  • 1篇语料库
  • 1篇语料库构建
  • 1篇数据挖掘
  • 1篇平行语料库
  • 1篇自动抽取
  • 1篇自动构建方法
  • 1篇网页获取
  • 1篇关系抽取
  • 1篇WEB技术
  • 1篇WEB数据挖...

机构

  • 4篇苏州大学

作者

  • 4篇冯艳卉
  • 3篇姚建民
  • 3篇洪宇
  • 3篇朱巧明
  • 2篇颜振祥
  • 1篇唐伟

传媒

  • 2篇中文信息学报

年份

  • 1篇2013
  • 1篇2012
  • 1篇2011
  • 1篇2010
4 条 记 录,以下是 1-4
排序方式:
网页中商品“属性—值”关系的自动抽取方法研究被引量:7
2013年
商品属性及其对应值的自动挖掘,对于基于Web的商品市场需求分析、商品推荐、售后服务等诸多领域有重要的应用价值。该文提出一种基于网页标题的模板构建方法,从结构化网页中抽取完整的商品"属性—值"关系。该方法包含四个关键技术:1)利用商品网页标题构建领域相关的属性词包;2)基于预设分隔符细化文本节点;3)结合领域商品属性词包获取种子"属性—值"关系;4)结合网页布局信息和字符信息来筛选与构建模板。该文的实验基于相机和手机两个领域展开,获得94.68%的准确率和90.57%的召回率。
唐伟洪宇冯艳卉姚建民朱巧明
关键词:WEB数据挖掘
基于搜索引擎的双语混合网页识别新方法
本文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质最双语混合网...
冯艳卉洪宇颜振祥姚建民朱巧明
关键词:WEB挖掘平行语料
文献传递
基于搜索引擎的双语混合网页识别新方法被引量:3
2011年
该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。该文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2 516条检索结果记录,该文提出的方法取得了81.3%的精确率和94.93%的召回率。
冯艳卉洪宇颜振祥姚建民朱巧明
关键词:WEB挖掘平行语料
基于Web的大规模平行语料库构建方法研究
大规模平行语料库是机器翻译、跨语言信息检索等自然语言处理应用的重要资源。互联网上存在着海量的多语言平行资源,以往的一些研究都致力于从一些多语网站中获取平行(即互为翻译)的单语网页对,进而获取平行语料。虽然许多机构都已经展...
冯艳卉
关键词:WEB技术信息挖掘平行语料库自动构建方法网页获取
文献传递
共1页<1>
聚类工具0