黄浩 作品数:82 被引量:115 H指数:6 供职机构: 上海交通大学 更多>> 发文基金: 国家自然科学基金 博士科研启动基金 新疆维吾尔自治区自然科学基金 更多>> 相关领域: 自动化与计算机技术 电子电信 文化科学 经济管理 更多>>
语音处理技术在语言及任务的扩展应用研究 本文报告近年来新疆维吾尔自治区多语种技术重点实验室以维-哈-蒙等语言为研究对象开展的语音技术研究工作。科研项目有:电话语音说话人识别;连续语音识别及语音翻译技术等。经初步测试,基于GMM-UBM&SVM的维吾尔语自由式发... 伊·达瓦 黄浩 那斯尔江 吾守尔关键词:说话人识别 连续语音识别 文献传递 基于时域的基频感知语音分离方法 被引量:2 2022年 传统的单通道语音分离方法主要采用混音作为输入,对其进行分离得到目标说话人的语音.最近的研究表明,将预估计的基频信息注入到原始混音信号中能够提高分离效果,但这种方法最初应用于时频域.近年来,基于时域的语音分离方法已经被验证优于早期的时频域分离方法.基于上述出发点,本文提出基于辅助基频的时域语音分离方法.该方法首先将时域信号输入预分离模块生成预分离语音,并从预分离语音中提取基频;然后将提取的基频与原始混音拼接,作为后分离模块的输入进行第二次分离.本文评估了不同的基频提取方法和训练策略.语音分离实验结果表明:在训练后分离模块时,先使用理想基频与混音融合训练一个理想分离网络,然后用RAPT方法对预分离源提取估计基频注入混音,再进行理想分离网络的微调,能够获得最佳的语音分离性能,比Conv-TasNet基线方法提高了0.5 dB.这说明显式地注入辅助基频信息不仅在时频域语音分离中表现出了有效性,同时也适用于时域语音分离. 王凯 李鸣鹤 黄志华 黄浩关键词:语音分离 单通道 基频 时域 区分性模型组合中基于决策树的声学上下文建模方法 被引量:1 2012年 上下文相关的区分性模型组合的局限在于引入大的模型权重参数集,在数据有限时容易导致区分性权重训练过拟合.针对该问题,本文提出利用决策树进行上下文建模,采用最小音子错误准则构建决策树以获得最优上下文相关权重参数集.决策树构造过程中通过评估目标函数的一阶近似增量来加速最优问题集的选择,并利用精细问题集来获得更好的声学区分能力.基于多模型组合的语音识别实验表明,该方法能够增强权重训练对过拟合的鲁棒性,在大幅减小参数数量的情况下降低误识率,并优于在特征空间进行组合的方法. 黄浩 李兵虎 吾守尔.斯拉木关键词:上下文建模 语音识别 一种基于神经网络的端到端声调识别方法 本发明公开了一种基于神经网络的端到端声调识别方法,包括:构建端到端声调识别模型,确定神经网络的层数、隐含层节点数等所需的各项超参数;在训练集上训练语音识别声学模型,利用强制对齐获得每个音节的开始和结束时间;将选取的训练语... 黄浩 王凯 胡英基于深度神经网络的维吾尔语语音识别 被引量:13 2015年 目前的语音识别主要采用隐马尔可夫模型去实现,考虑三音子后,模型参数巨增,在训练数据有限的状态下,模型参数得不到很好的训练,影响语音识别率。为提高语音识别率,提出基于深度神经网络的语音识别方法。以kaldi为测试平台,对一个含有4隐层的神经网络进行训练,利用该模型进行维吾尔语语音识别。实验结果表明,相比基本单音子隐马尔科夫模型和考虑三音子后的隐马尔科夫模型,深度神经网络模型使维吾尔语语音识别错误率分别降低了31.09%和8.68%,且现存一切模型优化算法在此模型中依然有效。 其米克.巴特西 黄浩 王羡慧关键词:语音识别 三音子 基于卷积非负矩阵部分联合分解的强噪声单声道语音分离 被引量:3 2020年 非负矩阵部分联合分解(Nonnegative matrix partial co-factorization,NMPCF)将指定源频谱作为边信息参与混合信号频谱的联合分解,以帮助确定指定源的基向量进而提高信号分离性能.卷积非负矩阵分解(Convolutive nonnegative matrix factorization,CNMF)采用卷积基分解的方法进行矩阵分解,在单声道语音分离方面取得较好的效果.为了实现强噪声条件下的语音分离,本文结合以上两种算法的优势,提出一种基于卷积非负矩阵部分联合分解(Convolutive nonnegative partial matrix co-factorization,CNMPCF)的单声道语音分离算法.本算法首先通过基音检测算法得到混合信号的语音起始点,再据此确定混合信号中的纯噪声段,最后将混合信号频谱和噪声频谱进行卷积非负矩阵部分联合分解,得到语音基矩阵,进而得到分离的语音频谱和时域信号.实验中,混合语音信噪比(Signal noise ratio,SNR)选择以¡3 dB为间隔从0 dB至¡12 dB共5种SNR.实验结果表明,在不同噪声类型和噪声强度条件下,本文提出的CNMPCF方法相比于以上两种方法均有不同程度的提高. 董兴磊 胡英 黄浩 吾守尔·斯拉木关键词:语音分离 强噪声 单声道 自动发音错误检测中基于F_1值最大化的声学模型训练方法 被引量:3 2013年 为了提高计算机辅助语言学习中自动发音错误检测系统的性能,提出一种声学模型的区分性训练方法。该方法将经过正确度标注的非母语语音数据库上的发音错误检测的F_1值的最大化作为模型参数的训练准则。采用Sigmoid函数对F_1值函数进行平滑构造目标函数,并利用构造弱意义辅助函数的方法以及扩展Baum-Welch形式的参数更新公式进行优化。提出在模型参数更新与音素门限同时优化的策略保证目标函数增长的单调性。发音错误检测实验表明该方法能够有效地增大训练和测试数据检错的F_1值。同时训练数据和测试数据上的精确度、召回率以及检测正确度都有明显改进。 黄浩 王建明 哈力旦.阿布都热依木 吾守尔.斯拉木关键词:声学模型 最大化 发音 SIGMOID函数 模型参数 目标函数 Discriminative tone model training and optimal integration for Mandarin speech recognition 2007年 Two discriminative methods for solving tone problems in Mandarin speech recognition are presented. First, discriminative training on the HMM (hidden Markov model) based tone models is proposed. Then an integration technique of tone models into a large vocabulary continuous speech recognition system is presented. Discriminative model weight training based on minimum phone error criteria is adopted aiming at optimal integration of the tone models. The extended Baum Welch algorithm is applied to find the model-dependent weights to scale the acoustic scores and tone scores. Experimental results show that tone recognition rates and continuous speech recognition accuracy can be improved by the discriminatively trained tone model. Performance of a large vocabulary continuous Mandarin speech recognition system can be further enhanced by the discriminatively trained weight combinations due to a better interpolation of the given models. 黄浩 朱杰一种基于音素嵌入的语音识别方法 本发明公开了一种基于音素嵌入的语音识别方法,方法包括:将m+n层的编码器Encoder的前m层当作声学模型,用于音素信息学习,可使用目标语言数据和其他语种数据训练声学模型;后n层和解码器Decoder当作语言模型,可以结... 黄浩 杨宇航一种改进的GOP算法在区分性训练的应用 被引量:1 2014年 自动发音错误检错中基于最大化F1值的区分性训练方法是最近提出来的一种声学模型训练方法,该方法能够有效增大发音检错系统中的训练和测试数据检错的F1值。对发音质量评估方法上进行研究,提出一种改进的GOP算法来替代传统的GOP算法,改进GOP算法把传统地GOP算法的先求后验概率再求时间归一化改变成先求时间归一化再求后验概率。根据改进GOP算法给出了使用改进GOP算法最大F1准则的参数更新公式,发音检错实验结果表明基于改进的GOP算法的最大F1值准则训练较使用传统的GOP算法具有过训练抑制性好,在训练机上较低的目标函数值上能达到较高的测试集上的F1值等较好的性能。 热米拉.艾山江 黄浩