国家自然科学基金(61100085)
- 作品数:4 被引量:1H指数:1
- 相关作者:杜金华王莎郭俊博刘丁更多>>
- 相关机构:西安理工大学更多>>
- 发文基金:国家自然科学基金陕西省教育厅科研计划项目陕西省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- N-Best句法知识增强的统计机器翻译预调序模型被引量:1
- 2016年
- 源语言和目标语言的句法异构性对统计机器翻译(SMT)性能有重要影响。在基于短语的汉英统计机器翻译基础上,提出了一种基于N-best句法知识增强的源语言预调序方法。首先对源语言输入句子进行N-best句法分析,计算统计概率得到高可靠性子树结构,再根据词对齐信息从可靠性子树结构中抽取初始调序规则集。两种优化策略用于对初始规则集进行优化:基于中英文句法知识规则推导筛选和规则概率阈值控制机制。然后为减少短语内部调序,保证短语局部流利性,采用源语言短语翻译表为约束,使调序控制在短语块之间进行。最后根据获取的优化规则集和短语表约束条件对源语言端句子的句法分析树进行预调序。在基于NIST 2005和2008测试数据集上的汉英统计机器翻译实验结果表明,所提基于N-best句法知识增强的统计机器翻译预调序方法相对于基线系统,自动评价准则BLEU得分分别提高了0.68和0.83。
- 郭俊博张喜媛杜金华
- 关键词:统计机器翻译
- 基于特征比较和最大熵模型的统计机器翻译错误检测
- 2013年
- 首先介绍3种典型的用于翻译错误检测和分类的单词后验概率特征,即基于固定位置的词后验概率、基于滑动窗的词后验概率和基于词对齐的词后验概率,分析其对错误检测性能的影响;然后,将其分别与语言学特征如词性、词及由LG句法分析器抽取的句法特征等进行组合,利用最大熵分类器预测翻译错误,并在汉英NIST数据集上进行实验验证和比较。实验结果表明,不同的单词后验概率对分类错误率的影响是显著的,并且在词后验概率基础上加入语言学特征的组合特征可以显著降低分类错误率,提高译文错误预测性能。
- 杜金华王莎
- 关键词:语言学特征最大熵分类器
- 特定句法增强的SMT调序模型
- 2015年
- 面向基于短语的汉英统计机器翻译,提出了一种基于特定句法(汉语"的"结构)增强的调序方法,该方法首先在词对齐和源端词性(POS)信息的约束下抽取基本调序规则,然后根据中文端特定句法结构—"的"字结构,将抽取的基本规则自动分类为"调序倾向性强"和"调序倾向性弱"两类,最后采用不同的优化和剪枝策略对两类规则进行处理,得到最终的源语言端调序规则集合。在NIST汉英数据集上的实验表明,相对于基线系统,本文所提方法在NIST MT2005测试集上显著提高了0.69BLEU值。
- 杜金华张喜媛
- 关键词:统计机器翻译
- 基于多特征融合的统计机器翻译译文错误检测
- 2013年
- 抽取了3种典型的单词后验概率特征(基于固定位置的词后验概率、基于目标位置窗的词后验概率、基于词对齐的词后验概率)和3种语言学特征(词、词性、句法分析器抽取的句法特征),并在此基础上抽取了一个来自源端的单词特征,然后基于中英NIST数据集,采用最大熵分类器来验证不同单词后验概率特征(WPP)独立使用及与其它特征组合后使用时对错误检测性能的影响。实验结果表明,采用不同方法计算得到的单词后验概率特征对分类错误率的影响是显著的,并且在单词后验概率和语言学特征组合基础上加入源端单词特征,可以显著降低分类错误率(CER),提高译文错误检测能力。
- 王莎杜金华刘丁
- 关键词:最大熵分类器语言学特征