您的位置: 专家智库 > >

李冬

作品数:3 被引量:46H指数:2
供职机构:东软集团更多>>
发文基金:国家自然科学基金中央高校基本科研业务费专项资金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 1篇会议论文

领域

  • 3篇自动化与计算...

主题

  • 2篇DEEP_W...
  • 2篇DOM树
  • 2篇EEM
  • 1篇数据集
  • 1篇数据集成
  • 1篇统计分析
  • 1篇基于语义
  • 1篇WEB
  • 1篇DEEP
  • 1篇DEEPWE...

机构

  • 3篇东北大学
  • 3篇东软集团

作者

  • 3篇寇月
  • 3篇李冬
  • 2篇聂铁铮
  • 2篇申德荣
  • 1篇于戈

传媒

  • 1篇计算机研究与...
  • 1篇软件学报

年份

  • 1篇2010
  • 2篇2008
3 条 记 录,以下是 1-3
排序方式:
一种基于语义及统计分析的DeepWeb实体识别机制被引量:30
2008年
分析了常见的实体识别方法,提出了一种基于语义及统计分析的实体识别机制(deep Web entity identification mechanism based on semantics and statistical analysis,简称SS-EIM),能够有效解决Deep Web数据集成中数据纠错、消重及整合等问题.SS-EIM主要由文本匹配模型、语义分析模型和分组统计模型组成,采用文本粗略匹配、表象关联关系获取以及分组统计分析的三段式逐步求精策略,基于文本特征、语义信息及约束规则来不断精化识别结果;根据可获取的有限的实例信息,采用静态分析、动态协调相结合的自适应知识维护策略,构建和完善表象关联知识库,以适应Web数据的动态性并保证表象关联知识的完备性.通过实验验证了SS-EIM中所采用的关键技术的可行性和有效性.
寇月申德荣李冬聂铁铮
关键词:DEEPWEB数据集成
D-EEM:一种基于DOM树的Deep Web实体抽取机制
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段。 如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题。本文通过分析Deep Web结果页面的特点,...
寇月李冬申德荣于戈聂铁铮
关键词:DOM树
D-EEM:一种基于DOM树的Deep Web实体抽取机制被引量:17
2010年
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势.
寇月李冬申德荣于戈聂铁铮
关键词:DOM树DEEPWEB
共1页<1>
聚类工具0