国家重点基础研究发展计划(2012CB326405)
- 作品数:3 被引量:41H指数:3
- 相关作者:戴礼荣宋彦陈丽萍薛少飞更多>>
- 相关机构:中国科学技术大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:电子电信自动化与计算机技术更多>>
- 深度语音信号与信息处理:研究进展与展望被引量:33
- 2014年
- 首先对深度学习进行简要的介绍,然后就其在语音信号与信息处理研究领域的主要研究方向,包括语音识别、语音合成、语音增强的研究进展进行了详细的介绍。语音识别方向主要介绍了基于深度神经网络的语音声学建模、大数据下的模型训练和说话人自适应技术;语音合成方向主要介绍了基于深度学习模型的若干语音合成方法;语音增强方向主要介绍了基于深度神经网络的若干典型语音增强方案。最后对深度学习在语音信与信息处理领域的未来可能的研究热点进行展望。
- 戴礼荣张仕良
- 关键词:语音识别语音合成语音增强
- 基于多GPU的深层神经网络快速训练方法被引量:4
- 2013年
- 近年来,深层神经网络(deep neural network,DNN)被成功应用于语音识别领域,成为一种很具发展潜力的语音识别模型。然而,由于其训练算法复杂度高,随着训练数据和网络规模增大,DNN模型训练将非常耗时。为提高DNN的训练效率,该文研究了基于多图形处理器(graph-ic processing unit,GPU)的DNN快速训练算法。在TIMIT数据集上的音素识别实验显示:在基本保证识别性能的前提下,优化后的DNN快速训练方法在4个GPU下训练速度相比单GPU有约3.3倍的提升。实验结果表明该快速训练方法可以显著提升DNN模型的训练速度。
- 薛少飞宋彦戴礼荣
- 关键词:音素识别
- 基于深层置信网络的说话人信息提取方法被引量:5
- 2013年
- 在基于全差异空间因子(i-Vector)的说话人确认系统中,需进一步从语音段的i-Vector表示中提取说话人相关的区分性信息,以提高系统性能.文中通过结合锚模型的思想,提出一种基于深层置信网络的建模方法.该方法通过对i-Vector中包含的复杂差异信息逐层进行分析、建模,以非线性变换的形式挖掘出其中的说话人相关信息.在NIST SRE 2008核心测试电话训练-电话测试数据库上,男声和女声的等错误率分别为4.96%和6.18%.进一步与基于线性判别分析的系统进行融合,能将等错误率降至4.74%和5.35%.
- 陈丽萍王尔玉戴礼荣宋彦
- 关键词:说话人确认