国家自然科学基金(61173073)
- 作品数:5 被引量:10H指数:2
- 相关作者:赵铁军郑德权于墨王宝鑫王晓雪更多>>
- 相关机构:哈尔滨工业大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国际科技合作与交流专项项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于动态机制的主题事件中的时间识别和规范化
- 2015年
- 事件中与主题相关的时间信息体现了事件在时间维度的特征。而当前面向事件的时间识别大多是基于句子或短语的,并采用静态时间值机制。本文提出了一个面向主题事件的时间识别模型。该模型采用参考时间动态选择机制对时间表达式进行规范化,然后利用设置了优先级的关键词,将基于句子或短语的时间识别转化为基于篇章的时间识别,从而识别主题事件中的时间。改善了纯粹基于关键词或静态参考时间机制的主题事件中的时间识别的性能。
- 李风环郑德权赵铁军
- 结构化学习的噪声可学习性分析及其应用被引量:2
- 2013年
- 噪声可学习性理论指出,有监督学习方法的性能会受到训练样本标记噪声的严重影响.然而,已有相关理论研究仅针对二类分类问题.致力于探究结构化学习问题受噪声影响的规律性.首先,注意到在结构化学习问题中,标注数据的噪声会在训练过程中被放大,使得训练过程中标记样本的噪声率高于标记样本的错误率.传统的噪声可学习性理论并未考虑结构化学习中的这一现象,从而低估了问题的复杂性.从结构化学习问题的噪声放大现象出发,提出了新的结构化学习问题的噪声可学习性理论.在此基础上,提出了有效训练数据规模的概念,这一指标可用于在实践中描述噪声学习问题的数据质量,并进一步分析了实际应用中的结构化学习模型在高噪声环境下向低阶模型回退的情况.实验结果证明了该理论的正确性及其在跨语言映射和协同训练方法中的应用价值和指导意义.
- 于墨赵铁军胡鹏龙郑德权
- 关键词:词性标注自然语言处理半监督学习
- 基于n元词组表示的去噪方法及其在跨语言映射中的应用
- 2016年
- 具有结构化输出的学习任务(结构化学习)在自然语言处理领域广泛存在。近年来研究人员们从理论上证明了数据标记的噪声对于结构化学习的巨大影响,因此为适应结构化学习任务的去噪算法提出了需求。受到近年来表示学习发展的启发,本文提出将自然语言的子结构低维表示引入结构化学习任务的样本去噪算法中。这一新的去噪算法通过n元词组的表示为序列标注问题中每个节点寻找近邻,并根据节点标记与其近邻标记的一致性实现去噪。本文在命名实体识别和词性标注任务的跨语言映射上对上述去噪方法进行了验证,证明了这一方法的有效性。
- 于墨赵铁军
- 关键词:半监督学习去噪算法自然语言处理
- 统计机器翻译中双语语料的过滤及词对齐的改进被引量:3
- 2013年
- 词对齐是统计机器翻译系统中最重要的一个环节,统计机器翻译中的翻译模型和调序模型都是在词对齐结果的基础上构造的,词对齐阶段出现的错误,会延续到这些模型中,甚至会因为词对齐的错误而在这些模型中引发更大的错误。为减少词对齐阶段的错误,提出一种基于对齐困惑度的双语语料过滤方法和一种改进的判别式词对齐算法,语料过滤方法可以将词对齐阶段有严重错误的双语句对过滤掉,判别式词对齐算法与传统的自动词对齐算法相比,可以得到对齐错误率更低的词对齐结果。
- 梁华参赵铁军
- 关键词:词对齐统计机器翻译
- 基于文本蕴含的选择类问题解答技术研究被引量:5
- 2016年
- 利用选择类问题具有明确候选项的特点,简化问题分类过程,并针对长文本语义蕴含短文本语义的语言现象,提出一种根据文本蕴含强度大小对候选答案进行排序的方法。在没有大规模问答对的情况下,采用维基百科中文语料库,以全国各省市高考地理选择题作为实验数据,通过句子相似度和文本蕴含两种方法来解答地理选择题。实验表明,基于文本蕴含方法的准确率为36.93%,比基于词嵌入的句子相似度方法提高2.44%,比基于向量空间模型的句子相似度方法提高7.66%,验证了该文本蕴含强度计算方法的有效性。
- 王宝鑫郑德权王晓雪赵姗姗赵铁军
- 关键词:选择题句子相似度