戴新宇
- 作品数:184 被引量:524H指数:9
- 供职机构:南京大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金更多>>
- 相关领域:自动化与计算机技术文化科学语言文字电气工程更多>>
- 一种自动探索更多参考译文信息的机器翻译优化方法
- 本发明公开了一种自动探索更多参考译文信息的机器翻译优化方法,利用图扩展参考译文的信息,对机器翻译得到的译文进行更充分的评价,同时在利用译文信息扩展的评价方法参与训练过程时,帮助系统更好的进行参数学习。主要步骤如下:利用G...
- 黄书剑季红洁戴新宇陈家骏张建兵
- 基于混合策略的机器翻译方法研究
- 机器翻译是自然语言处理领域中的一个重要应用,它几乎包含了自然语言处理的所有技术。经过若干年的发展,机器翻译研究已经取得了很大的进展,出现了许多机器翻译方法并产生了很好的效果,但是,机器翻译质量仍然和人们的期望相距甚远。随...
- 戴新宇
- 关键词:机器翻译
- 文献传递
- 一种基于深度对齐矩阵分解模型进行学术论文推荐的方法
- 本发明公开了一种基于深度对齐矩阵分解模型进行学术论文推荐的方法,包括:分别通过两个非线性多层感知器,将用户和论文以及论文和单词映射到相同维度的低维特征空间;通过最大化同一篇论文的两种低维表示向量之间的相似度,在两个非线性...
- 戴新宇戴瑾黄书剑张建兵尹存燕陈家骏
- 文献传递
- 利用基于词上下文的字嵌入与神经网络的中文分词方法
- 本发明提出了一种利用基于词上下文的字嵌入与神经网络的中文分词方法,在大规模的自动切分数据上学习字嵌入,将学习得到的字嵌入作为神经网络分词模型的输入,可以有效帮助模型学习。具体步骤如下:根据字上下文以及词位标记在大规模自动...
- 戴新宇郁振庭陈家骏黄书剑张建兵
- 文献传递
- 利用外部信息的神经机器翻译方法
- 本公开涉及利用外部信息的神经机器翻译方法,包括:接收源端源语言的文字序列作为源端输入;接收目标语言的文字序列作为外部信息输入;根据源端输入和外部信息输入,生成源端源语言文字序列的译文作为目标端输出。本公开提供的神经机器翻...
- 黄书剑郑在翔戴新宇张建兵尹存燕陈家骏
- 文献传递
- 一种基于层间自注意力的中文拼写纠错方法
- 本发明提出了一种基于层间自注意力的中文拼写纠错方法,其利用n元语法令牌作为查询,对BERT的不同层上的字符表示进行自注意力查询并加权融合,并利用字符的最终表示进行拼写纠错任务。通过引入BERT编码器中不同层次的抽象知识,...
- 戴新宇曹永昌何亮吴震张建兵黄书剑陈家骏
- 自然语言信息抽取中的机器学习方法研究被引量:21
- 2005年
- 信息抽取是一种用于处理各种类型文本文档的非常有效的方法,然而建立一个文本信息抽取系统却是非常困难和耗费时间的。近年来,基于统计的机器学习方法在信息抽取领域的研究受到了广泛关注。本文深入探讨了当前自然语言信息抽取领域广泛采用的几种非常有效的统计学习方法,比较分析了各种方法的统计推断过程和学习算法及其优缺点,讨论了各种统计学习方法所面临的训练语料匮乏问题的主要解决方法,并指出了今后进一步研究的方向。
- 周俊生戴新宇尹存燕陈家骏
- 关键词:自然语言信息抽取机器学习方法统计学习
- 基于层叠条件随机场模型的中文机构名自动识别被引量:137
- 2006年
- 中文机构名的自动识别是自然语言处理中的一个比较困难的问题.本文提出了一种新的基于层叠条件随机场模型的中文机构名自动识别算法.该算法在低层条件随机场模型中解决对人名、地名等简单命名实体的识别,将识别结果传递到高层模型,为高层的机构名条件随机场模型实现对复杂机构名的识别提供决策支持.文中为机构名条件随机场模型设计了有效的特征模板和特征自动选择算法.对大规模真实语料的开放测试中,召回率达到90.05%,准确率达到88.12%,性能优于其它中文机构名识别算法.
- 周俊生戴新宇尹存燕陈家骏
- 关键词:中文机构名识别条件随机场
- 一种计算机中限定翻译片段的交互式翻译方法
- 本发明提出了一种计算机中限定翻译片段的交互式翻译方法,包括:用户输入需要翻译的句子,由系统给出原始翻译结果,当用户对系统给出的翻译结果的顺序有不同意见,通过点击操作对源语言片段进行限制,使得其作为一个完整的整体,系统根据...
- 黄书剑程善伯戴新宇陈家骏张建兵
- 一种基于规则的试题类自动问答系统中的试题理解方法
- 本发明公开了一种基于规则的试题类自动问答系统中的试题理解方法,首先基于正则表达式的试题预处理,删除套话等无用文本,添加被省略标点,完善句子,并对完善后的句子进行分词,词性标注,成分句法分析等基本自然语言处理,然后设计一套...
- 戴新宇王韶杰李泽宇
- 文献传递