于墨
- 作品数:6 被引量:2H指数:1
- 供职机构:哈尔滨工业大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 结构化学习的噪声可学习性分析及其应用被引量:2
- 2013年
- 噪声可学习性理论指出,有监督学习方法的性能会受到训练样本标记噪声的严重影响.然而,已有相关理论研究仅针对二类分类问题.致力于探究结构化学习问题受噪声影响的规律性.首先,注意到在结构化学习问题中,标注数据的噪声会在训练过程中被放大,使得训练过程中标记样本的噪声率高于标记样本的错误率.传统的噪声可学习性理论并未考虑结构化学习中的这一现象,从而低估了问题的复杂性.从结构化学习问题的噪声放大现象出发,提出了新的结构化学习问题的噪声可学习性理论.在此基础上,提出了有效训练数据规模的概念,这一指标可用于在实践中描述噪声学习问题的数据质量,并进一步分析了实际应用中的结构化学习模型在高噪声环境下向低阶模型回退的情况.实验结果证明了该理论的正确性及其在跨语言映射和协同训练方法中的应用价值和指导意义.
- 于墨赵铁军胡鹏龙郑德权
- 关键词:词性标注自然语言处理半监督学习
- 基于n元词组表示的去噪方法及其在跨语言映射中的应用
- 2016年
- 具有结构化输出的学习任务(结构化学习)在自然语言处理领域广泛存在。近年来研究人员们从理论上证明了数据标记的噪声对于结构化学习的巨大影响,因此为适应结构化学习任务的去噪算法提出了需求。受到近年来表示学习发展的启发,本文提出将自然语言的子结构低维表示引入结构化学习任务的样本去噪算法中。这一新的去噪算法通过n元词组的表示为序列标注问题中每个节点寻找近邻,并根据节点标记与其近邻标记的一致性实现去噪。本文在命名实体识别和词性标注任务的跨语言映射上对上述去噪方法进行了验证,证明了这一方法的有效性。
- 于墨赵铁军
- 关键词:半监督学习去噪算法自然语言处理
- CWMT2011哈工大机器智能与翻译研究室技术报告
- 本文详细介绍了哈尔滨工业大学机器智能与翻译研究室(HIT-MITLA)参加2011年全国机器翻译研讨会(cwMT2011)翻译评测任务的情况。在本次评测中,HIT-MITLAB共使用了5个翻译系统,它们分别是DINO,M...
- 梁华参刘乐茂于墨刘宇鹏胡鹏龙李婷婷张春越曹海龙赵铁军
- 关键词:机器翻译短语翻译
- 文献传递
- 自然语言句子级结构表示的建模与学习
- 表示学习方法可以为自然语言处理任务学习低维的平滑特征表示,从而缓解数据稀疏问题对于基于有监督学习的自然语言处理方法的影响。近年来,服务于如短语和句法树等自然语言结构的表示学习方法得到了广泛的关注。然而已有方法往往局限于对...
- 于墨
- 关键词:自然语言信息处理句子结构
- 基于情感分析的新闻浏览平台关键技术研究
- 随着网络对传统出版物和媒体的冲击,用户对于新闻浏览习惯发生了改变,越来越多的人养成了每天在网络上浏览新闻的习惯。本文研究如何高效、准确地从海量的新闻和新闻评论中找到网络读者感兴趣的信息。 本文首先对新闻聚类问题进行研究...
- 于墨
- 关键词:情感分析文本聚类信息抽取
- CWMT2011哈工大机器智能与翻译研究室技术报告
- 本文详细介绍了哈尔滨工业大学机器智能与翻译研究室(HIT-MITLA)参加2011年全国机器翻译研讨会(CWMT2011)翻译评测任务的情况。在本次评测中,HIT-MITLAB共使用了5个翻译系统,它们分别是DINO,M...
- 梁华参刘乐茂于墨刘宇鹏胡鹏龙李婷婷张春越曹海龙赵铁军
- 关键词:机器翻译短语翻译