陈巧灵
- 作品数:6 被引量:7H指数:1
- 供职机构:福州大学更多>>
- 发文基金:福建省科技重大专项国家教育部博士点基金福州市科技计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 针对多记录网页的记录项抽取系统及方法
- 本发明涉及一种针对多记录网页的记录项抽取系统及方法,该系统包括:记录树对齐模块,接收已抽取好的记录区域子树,并利用标签信息及语义信息进行树对齐,得到一棵超树,从而让相同语义的节点对应于超树的同一个节点;记录内容抽取模块,...
- 陈国龙廖祥文陈巧灵
- 文献传递
- 结合主动学习的多记录网页属性抽取方法被引量:1
- 2016年
- 属性抽取可分为对齐和语义标注两个过程,现有对齐方法中部分含有相同标签不同语义的属性会错分到同一个组,而且为了提高语义标注的精度,通常需要大量的人工标注训练集.为此,文中提出结合主动学习的多记录网页属性抽取方法.针对属性错分问题,引入属性的浅层语义,减少相同标签语义不一致的影响.在语义标注阶段,基于网页的文本、视觉和全局特征,采用基于主动学习的SVM分类方法获得带有语义的结构化数据.同时在主动学习的策略选择方面,通过引入样本整体信息,构建基于不确定性度量的策略,选择语义分类预测不准的样本进行标注.实验表明,在论坛、微博等多个数据集上,相比现有方法,文中方法抽取效果更好.
- 魏晶晶廖祥文陈巧灵马飞翔陈国龙
- 关键词:属性抽取语义分类
- 一种多记录网页的信息抽取系统及方法
- 本发明涉及一种多记录网页的信息抽取系统及方法,该系统包括:一个网页预处理模块,用于将HTML网页转换为XHTML网页,并过滤网页中用来渲染显示效果的标签,然后根据标签的嵌套结构,构建文档次序树;一个记录区域定位模块,用于...
- 陈国龙廖祥文陈巧灵杨定达魏晶晶
- 文献传递
- 针对多记录网页的记录项抽取系统及方法
- 本发明涉及一种针对多记录网页的记录项抽取系统及方法,该系统包括:记录树对齐模块,接收已抽取好的记录区域子树,并利用标签信息及语义信息进行树对齐,得到一棵超树,从而让相同语义的节点对应于超树的同一个节点;记录内容抽取模块,...
- 陈国龙廖祥文陈巧灵
- 文献传递
- 一种多记录网页的信息抽取系统及方法
- 本发明涉及一种多记录网页的信息抽取系统及方法,该系统包括:一个网页预处理模块,用于将HTML网页转换为XHTML网页,并过滤网页中用来渲染显示效果的标签,然后根据标签的嵌套结构,构建文档次序树;一个记录区域定位模块,用于...
- 陈国龙廖祥文陈巧灵杨定达魏晶晶
- 文献传递
- 基于DOM树层次特征的多记录网页抽取被引量:6
- 2015年
- 现有的多记录网页抽取方法通常是对文件对象模型(DOM)树进行整体纵向结构分析,计算的结构相似度普遍偏低,使其不能正确识别记录区域.文中提出基于DOM树层次特征的记录抽取方法,该方法利用DOM树不同层次节点的不同作用对其进行横向分析,将寻找相似子树的问题转换为寻找节点块的相似子块,最后采用双向拓展搜索非重叠重复子块进行记录分隔.实验表明该方法能抽取现有抽取器无法处理的页面,多个数据源的抽取结果验证其有效性.
- 陈巧灵廖祥文魏晶晶陈国龙
- 关键词:信息抽取抽取算法