陈山
- 作品数:4 被引量:16H指数:3
- 供职机构:湖南工学院计算机与信息科学系更多>>
- 发文基金:湖南省教育厅科研基金更多>>
- 相关领域:自动化与计算机技术自然科学总论文化科学更多>>
- 一种改进的基于本体的Web信息抽取被引量:8
- 2010年
- 以Web页面信息项本体定义为基础,对单个样本页面信息项路径进行启发式学习,对所有样本页面集中信息块路径进行归纳学习,识别结构相似的信息块子树位置,以准确划定信息抽取区域,降低页面噪声。将经过噪声处理的样本页面自动解析成页面的结构本体。比较Web页面信息项本体和页面的结构本体,通过归纳学习算法生成抽取规则,提高Web信息的抽准率。
- 柳佳刚陈山黄樱
- 关键词:信息抽取本体文档对象模型
- 基于本体和DOM相结合的Web信息抽取器被引量:5
- 2009年
- 针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。
- 柳佳刚陈山贺令亚
- 关键词:信息抽取包装器本体文档对象模型
- 基于PAT-tree的中文关键词自动检索模式的研究被引量:4
- 2009年
- 利用可变长语言模型对中文文档的关键词进行准确识别是中文信息处理中的一个重要问题。由于不存在n元语言模型的截断效应,对关键词检索的长度没有限制,因此增加了关键词识别的难度。利用PAT-tree技术设计了一个改进的可变长统计语言模型对中文文档中的关键词进行识别。在该模型基础上进行相关性检测实验。实验结果表明基于PAT-tree的改进语言模型能更好的识别关键词。
- 柳佳刚陈山
- 关键词:语言模型交互信息