丁亮
- 作品数:6 被引量:16H指数:2
- 供职机构:中国科学技术信息研究所更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学理学语言文字更多>>
- 基于多元统计分析的葡萄酒评价与指标关联研究被引量:1
- 2017年
- 现行葡萄酒评价最有效的方式是通过聘请一批有资质的评酒员进行品评、给分来确定。而针对酿酒葡萄和葡萄酒的理化指标进行酿酒葡萄的分级和葡萄酒得质量评价尚需做进一步的探讨。本文通过主成份分析法、聚类分析法、典型相关分析等方法,依据酿酒葡萄和葡萄酒的理化指标建立了基于主成分分析和聚类分析的酿酒葡萄分级模型、基于典型相关分析的指标联系模型。此项研究可以通过大数据背景下的数据建模分析,减少葡萄酒评级中人工工作量,给予品酒师大数据模型决策。
- 丁亮许文武林刘清民
- 关键词:主成分分析聚类分析
- 情报学研究的认识与建议
- 2016年
- 情报学是一门研究信息并为了有效利用信息的学科。笔者从情报学的产生、定义和原理入手,对情报学学科进行再认识,提出"情报-信息链"的层级概念,结合网络大数据信息爆炸时代的时代特点,对情报学在新时期的发展进行了分析,并对其发展提出了一些建议。
- 丁亮
- 关键词:情报学
- 基于二维词汇化领域知识的日汉科技术语翻译方法研究
- 科技术语翻译要求高度的准确性和专业性,通过建立术语语料的领域知识标签,并基于待翻译术语的领域对训练语料进行筛选,可训练出针对领域的翻译模型,能极大改善科技术语翻译质量。这对于机器翻译、词典自动编纂、跨语言信息检索等自然语...
- 丁亮李颖何彦青刘建辉
- 关键词:统计机器翻译领域自适应
- 基于Bi-LSTM的数学主观题自动阅卷方法被引量:9
- 2018年
- 数学主观题自动阅卷既无法直接采用长文本计算中的TF-IDF等统计方法,又因为缺少相关知识库而无法使用语料库、知识库、语言学等短文本的方法。本文根据数学主观题的特点,提出了一种将人工制定评分标准和双向长短时记忆神经网络相结合的数学主观题自动阅卷方法,在高二年级数学真实考题上进行实验,准确率达到83.17%。
- 刘逸雪卢雨轩丁亮汪星明
- 关键词:自动阅卷文本相似度
- 融合领域知识与深度学习的机器翻译领域自适应研究被引量:6
- 2017年
- 【目的/意义】无论是统计机器翻译,还是神经机器翻译,训练数据通常来源复杂,主题多样,文体不一,与待翻译目标文本的领域不能保证完全一致,导致领域自适应问题。目前机器翻译的领域自适应方法大多用主题模型得到主题信息,将数据粗略划分为领域内(in-domain)和领域外(out-domain),缺乏更为明确的领域标签。【方法/过程】本研究采用中图分类号作为领域标签,采用两种方法对汉语句子进行自动领域标注领域:利用论文关键词和科技词系统等知识组织构建领域知识库的领域标注方法;训练卷积神经网络的深度学习的领域标注方法,通过神经网络深度融合模型将这两种方法融合起来得到效果更佳的领域标注器,利用机器翻译的测试集获取领域标签集合筛选其训练数据。【结果/结论】经过在神经机器翻译系统上进行测试,针对两个特定领域测试集,仅利用部分训练数据就获取了比原始训练数据高约1.3BLEU得分(相对5.4%)的翻译结果,证明了本研究方法的有效性和可行性。
- 丁亮何彦青
- 关键词:领域自适应神经网络
- 融合知识组织和深度学习的机器翻译领域自适应研究
- 统计机器翻译和神经机器翻译是目前较为流行的翻译模式,通常在双语对译语料上训练,学习翻译规则生成目标翻译。该机制中影响翻译质量的因素有很多,其中比较重要的有训练数据的领域分布、句对规模以及质量等。一般来说,训练数据与测试数...
- 丁亮
- 关键词:机器翻译领域自适应知识组织信息融合