山东省科技攻关计划(2010GGX10108)
- 作品数:2 被引量:24H指数:2
- 相关作者:李庆忠彭朝晖张传岩洪晓光张永新更多>>
- 相关机构:山东大学更多>>
- 发文基金:山东省科技攻关计划国家自然科学基金国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Markov逻辑网的两阶段数据冲突解决方法被引量:12
- 2012年
- 在数据集成中,如何准确地解决数据冲突是关系集成数据质量的关键问题.现有的方法主要针对单个属性进行冲突解决,由于没有区分不同属性的冲突程度,也没有考虑不同属性间冲突解决的相互影响,导致数据冲突解决的准确率不高.针对现有方法存在的不足,文中提出一种基于Markov逻辑网的两阶段数据冲突解决方法.该方法可以根据冲突程度对属性进行划分,并分两阶段进行处理:(1)在第1阶段,对于弱冲突属性,利用投票规则及事实之间相互印证等简单规则进行冲突解决;(2)在第2阶段,利用了第1阶段冲突解决的结果,在规则中加入数据源与事实之间的相互影响规则、数据源之间相互依赖规则及弱冲突属性对强冲突属性影响规则,对强冲突属性进行冲突解决.通过在大量真实数据上的实验结果证明,该方法能够有效地解决集成数据的冲突问题,具有较高的准确率.
- 张永新李庆忠彭朝晖
- 关键词:MARKOV逻辑网数据集成
- 基于SVM和扩展条件随机场的Web实体活动抽取被引量:14
- 2012年
- 在传统信息抽取的基础上,研究Web实体活动抽取,基于格语法对实体活动进行了形式化定义,并提出一种基于SVM(supported vector machine)和扩展条件随机场的Web实体活动抽取方法,能够从Web上准确地抽取实体的活动信息.首先,为了避免人工标注训练数据的繁重工作,提出一种基于启发式规则的训练数据生成算法,将语义角色标注的训练数据集转化为适合Web实体活动抽取的训练数据集,分别训练支持向量机分类器和扩展条件随机场.在抽取过程中,通过分类器获得包含实体活动的语句,然后利用扩展条件随机场对传统条件随机场中不能利用的标签频率特征和关系特征建模,标注自然语句中的待抽取信息,提高标注的准确率.通过多领域的实验,其结果表明,所提出的抽取方法能够较好地适用于Web实体活动抽取.
- 张传岩洪晓光彭朝晖李庆忠
- 关键词:信息抽取格语法支持向量机