国家自然科学基金(61105017)
- 作品数:7 被引量:12H指数:2
- 相关作者:樊学武杨毅赵惠鲍长春张菁芸更多>>
- 相关机构:清华大学中国科学院中国科学院大学更多>>
- 发文基金:国家自然科学基金北京市自然科学基金更多>>
- 相关领域:理学电子电信机械工程自动化与计算机技术更多>>
- 基于子带频谱质心特征的高效音频指纹检索被引量:5
- 2017年
- 关键音频检测是指从音频库中检索出查询样例,是音频检索的一种重要形式。该文针对传统关键音频检测方法在效率和鲁棒性上的不足分别在预处理、指纹提取以及检索部分进行了优化。在预处理阶段采用基于子带能量比的语音端点检测算法,并在窗函数选择和子带划分方法上进行了改善;在指纹提取阶段采用种子片段选取的方法,并将指纹提取方法改进为子带频谱质心法;在检索阶段通过设定命中次数门限以提高效率。实验结果表明:该文提出的改进系统在查全率、查准率以及抗噪能力提升的同时提高了检索效率,有效地提升了检索性能。
- 孙甲松张菁芸杨毅
- 关键词:指纹提取端点检测
- 基于声学融合特征的说话人分类方法研究
- 2013年
- 说话人分类系统的目的是将声音数据分段并按说话人进行分类。对每个说话人提取基于多距离麦克风的多时延特征,可以进一步提高说话人分类系统性能。但随着麦克风个数增加,多时延特征向量维数迅速增长。针对该问题,采用保留特征流形结构并降低计算代价的方法,提出一种基于多距离麦克风融合声学特征的多分量鉴别式保局投影算法,利用支持向量机分类器进行两说话人分类系统的训练和测试,实现会议场景下的说话人分类。实验结果证明,与传统DLPP等算法相比,该算法在大部分数据集上的分类性能较优,可将分类误差率降低至20%以下。
- 杨毅陈国顺鲍长春
- 基于空间声学特征的说话人分类算法
- 2013年
- 针对先验信息缺失情况下的说话人分类问题,可以采用提取基于多距离麦克风的空间声学特征的方法进行说话人分类.为了解决由于空间声学特征维数随麦克风个数的增加而迅速增长带来的计算代价问题,需要对其进行降维处理.用一种基于空间声学特征的优化鉴别式保局投影说话人分类方法,实现了在保留空间声学特征流型结构的同时降低计算代价的效果.实验在多距离麦克风语音会议数据集上进行验证,得到在大部分数据集上本方法的分类误差率(diarization error rate,DER)得分低于传统方法的结果.结果表明:本方法的说话人分类性能比传统方法有所提高.
- 杨毅陈国顺鲍长春
- 基于ICCD的微光图像增强算法研究
- 2014年
- 微光成像技术的核心在于采用不同于传统电荷耦合器件(CCD)的、能够对低光照响应的增强CCD(ICCD)图像传感器来获取目标图像信息。然而,在微光成像时,较差的光照条件与极低的光辐射量将导致目标图像质量(对比度及信噪比等)与正常环境相比有较大程度的下降,从而严重限制了其应用。因此,在分析微光图像特点(低信噪比、低对比度)的基础上,为了改善微光图像的质量和分辨率,提出了一种综合的微光图像增强算法,并且通过室外成像实验证明了该算法的有效性。研究表明,当环境照度降低到0.7 lx以下水平时,该算法依然有效。
- 苏宇赵惠樊学武凤良杰李爱玲
- 关键词:图像处理微光图像对比度增强
- 改进矢量外推Richardson-Lucy算法在波前编码图像复原中的应用被引量:5
- 2019年
- 将指数修正嵌入到矢量外推框架中,构建了一种改进的矢量外推Richardson-Lucy算法。以结构相似度因子作为评价指标,优化彩色图像三通道最佳迭代次数,确定矢量外推加速参量与指数修正加速参量最优组合.试验结果表明:改进的矢量外推Richardson-Lucy算法总迭代次数减少了78.9%,能有效抑制噪声放大,无需后续处理就能获得视觉质量更好的复原效果.该研究可为Richardson-Lucy算法在实时波前编码成像中的应用提供参考.
- 赵惠夏晶晶张凌樊学武
- 关键词:波前编码图像复原
- 基于现场可编程门阵列的联合变换相关器稳像系统研究被引量:1
- 2014年
- 空间推扫式时间延迟积分电荷耦合器件(TDI-CCD)相机在曝光时间内,容易因为相机焦平面与观测目标的偏移而造成图像模糊。为了获得高质量的图像数据,需要对成像系统进行稳像,而稳像的关键技术在于抑制成像平台的震动以及实时地、高精度地获取载体的运动轨迹。高速而精确地获取成像过程中载体平台的运动矢量,已经成为高分辨率成像的重点发展方向。通常获取运动矢量的方法速度较慢,无法满足实时地、准确地获取目标运动轨迹的需求,在联合变换光学相关器的图像位移矢量探测技术研究的基础之上,设计了基于现场可编程门阵列(FPGA)的联合变换相关器系统,代替基于傅里叶光学变换的联合变换相关器系统,计算精度达到了0.1 pixel。
- 杨文才樊学武王锋涛易红伟
- 关键词:互补金属氧化物半导体稳像联合变换相关快速傅里叶变换现场可编程门阵列
- 基于JSM和MLP改进发音错误检测的方法被引量:1
- 2014年
- 针对发音错误检测的发音字典生成提出基于联合序列多阶模型(Joint-sequence multi-gram,JSM)和多层神经感知(Multi-layer perception,MLP)的方法.首先使用JSM模型对发音错误进行建模,将标准发音和错误发音组合为发音对,表示它们之间的对应关系,再使用N元文法来统计各发音对之间的关系,描述错误发音对上下文关系的依赖.最后使用MLP对发音对之间的关系进行重新建模,以学习到在相似的上下文条件下发生的相似的错误.实验证明使用MLP对高阶模型进行概率重估能有效的平滑概率空间,提高了发音错误检测的性能.
- 袁桦史永哲赵军红刘加
- 关键词:发音错误检测计算机辅助语言学习