您的位置: 专家智库 > >

陈山

作品数:4 被引量:16H指数:3
供职机构:湖南工学院计算机与信息科学系更多>>
发文基金:湖南省教育厅科研基金更多>>
相关领域:自动化与计算机技术自然科学总论文化科学更多>>

文献类型

  • 3篇中文期刊文章

领域

  • 1篇自动化与计算...
  • 1篇文化科学
  • 1篇自然科学总论

主题

  • 2篇对象模型
  • 2篇信息抽取
  • 2篇文档
  • 2篇文档对象
  • 2篇文档对象模型
  • 2篇基于本体
  • 2篇本体
  • 2篇抽取
  • 1篇语言模型
  • 1篇中文关键词
  • 1篇互信息
  • 1篇交互信息
  • 1篇关键词
  • 1篇包装器
  • 1篇PAT
  • 1篇PAT-TR...
  • 1篇TREE
  • 1篇WEB信息
  • 1篇WEB信息抽...
  • 1篇DOM

机构

  • 3篇湖南工学院

作者

  • 3篇柳佳刚
  • 3篇陈山
  • 1篇黄樱
  • 1篇贺令亚

传媒

  • 1篇计算机工程
  • 1篇现代图书情报...
  • 1篇计算技术与自...

年份

  • 1篇2010
  • 2篇2009
4 条 记 录,以下是 1-3
排序方式:
一种改进的基于本体的Web信息抽取被引量:8
2010年
以Web页面信息项本体定义为基础,对单个样本页面信息项路径进行启发式学习,对所有样本页面集中信息块路径进行归纳学习,识别结构相似的信息块子树位置,以准确划定信息抽取区域,降低页面噪声。将经过噪声处理的样本页面自动解析成页面的结构本体。比较Web页面信息项本体和页面的结构本体,通过归纳学习算法生成抽取规则,提高Web信息的抽准率。
柳佳刚陈山黄樱
关键词:信息抽取本体文档对象模型
基于本体和DOM相结合的Web信息抽取器被引量:5
2009年
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。
柳佳刚陈山贺令亚
关键词:信息抽取包装器本体文档对象模型
基于PAT-tree的中文关键词自动检索模式的研究被引量:4
2009年
利用可变长语言模型对中文文档的关键词进行准确识别是中文信息处理中的一个重要问题。由于不存在n元语言模型的截断效应,对关键词检索的长度没有限制,因此增加了关键词识别的难度。利用PAT-tree技术设计了一个改进的可变长统计语言模型对中文文档中的关键词进行识别。在该模型基础上进行相关性检测实验。实验结果表明基于PAT-tree的改进语言模型能更好的识别关键词。
柳佳刚陈山
关键词:语言模型交互信息
共1页<1>
聚类工具0