国家高技术研究发展计划(2004AA117010)
- 作品数:3 被引量:10H指数:2
- 相关作者:陈毅东蔡莲红周昌乐史晓东郑敏更多>>
- 相关机构:厦门大学清华大学哈尔滨工业大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 平行语料库处理初探:一种排序模型被引量:4
- 2006年
- 十年来,统计方法在机器翻译中的应用得到了广泛的关注,并逐渐成为机器翻译研究的主流方法。构造高质量统计机器翻译系统的重要基础是大规模高质量的双语平行语料库。目前,多数平行语料库包含着错误或噪音,它们极大影响着统计机器翻译系统的性能。用人工手段来筛选语料库中的句对是费时费力的,本文研究了一种有助于处理这一问题排序模型,该模型考虑了多方面的因素,包括:语言模型、长度信息、意义对应等。鉴于如今的统计机器翻译系统都依赖词对齐信息,词对齐因素也被考虑入本模型中。文章最后的实验度结果表明本模型具有较好的性能。
- 陈毅东史晓东周昌乐
- 关键词:平行语料库排序统计机器翻译
- 生物医学文本中命名实体识别的智能化方法
- 介绍了使用机器学习方法进行生物医学文本命名实体识别的技术,包括Generalized Winnow算法、支持向量机方法和条件随机域模型.根据学习算法的特点,识别过程中使用了丰富的特征集,包括局部特征、全文特征及外部资源特...
- 王浩畅赵铁军刘延力于浩
- 关键词:命名实体识别支持向量机条件随机域
- 文献传递
- 基于概率频度的普通话韵律结构预测统计模型被引量:4
- 2006年
- 为进一步提高文语转换系统中韵律结构预测的准确度,提出了一个基于概率频度的统计模型的方法,预测韵律词和韵律短语边界两级韵律结构。该方法提取与韵律词和韵律短语边界有关的语言学特征(词性、语法词、长度和位置等),并进行样本训练计算各个特征的概率频度值,最终分别建立韵律词和韵律短语的统计模型。实验结果表明:统计模型的方法对于韵律词和韵律短语边界预测的正确率分别可达90.6%和84.6%,并与决策树算法和T ransform ation-based learn ing(TBL)转换规则学习算法比较,提高10%以上的正确率。
- 郑敏蔡莲红
- 关键词:文字信息处理韵律词韵律短语统计模型
- 生物医学文本中命名实体识别的智能化方法被引量:2
- 2006年
- 介绍了使用机器学习方法进行生物医学文本命名实体识别的技术,包括Generalized Winnow算法、支持向量机方法和条件随机域模型.根据学习算法的特点,识别过程中使用了丰富的特征集,包括局部特征、全文特征及外部资源特征.各种类型特征的优化组合、识别结果的后处理,包括缩写词识别、嵌套词识别及边界校正等都提升了命名实体识别系统的性能.实验结果表明,通过上述策略的应用,系统取得了很好的识别结果.
- 王浩畅赵铁军刘延力于浩
- 关键词:命名实体识别支持向量机条件随机域