公共文化服务平台

姜彦吉: 作品数：10 被引量：19H指数：3; 供职机构：辽宁工程技术大学软件学院更多>>; 发文基金：辽宁省教育厅科学技术基金博士科研启动基金更多>>; 相关领域：自动化与计算机技术电子电信医药卫生更多>>

合作作者

基于多重互信息约束的高表现力语音转换: 2024年; 随着语音转换在人机交互领域的广泛应用,对于获取高表现力语音的需求日益显著.当前语音转换主要通过解耦声学特征实现,侧重对内容和音色特征的解耦,很少考虑语音中混合的情感特性,导致转换音频情感表现力不足.为解决上述问题,本文提出一种基于多重互信息约束的高表现力语音转换模型(MMIC-EVC).在对内容和音色特征进行解耦的基础上,引入表现力模块分别对话语级韵律和节奏特征进行建模,以实现情感特性的传递;随后通过最小化各特征之间的多重互信息变分对数上界,约束各编码器专注于解耦对应的声学嵌入.在CSTR-VCTK和ESD语音数据集上的实验表明,本模型的转换音频语音自然度评分(MOS)达到3.78,梅尔倒谱失真为5.39 dB,最佳最差占比测试结果大幅领先于基线模型,MMIC-EVC能够有效解耦韵律和节奏特征,并实现高表现力语音转换,为人机交互带来更加出色和自然的用户体验.; 王光刘宗泽姜彦吉董浩; 关键词：语音转换人机交互

基于TMS320C5416的非特定人识别智能声控垃圾桶系统设计被引量：3: 2018年; 随着人们生活越来越智能化,智能家居是当前科技研究及实现的热门方向。垃圾桶是居家生活必需品。STC12C5A60S2单片机作为系统的主控芯片,采用TMS320C5416语音识别芯片设计一款非特定人识别智能声控垃圾桶,通过语音指令实现了垃圾桶的自动开盖、闭合,并在桶底安装压力传感器,设定清理垃圾提醒功能,经测试,系统识别率较高,实验效果理想,具有方便、实用、智能化优点。; 张家欣许树华姜彦吉; 关键词：语音识别非特定人

融合信息扰动与特征解耦的单样本语音转换: 2024年; 单样本语音转换的特性是利用单条目标说话人的语音样本即可实现身份的转换,但由于声学特征呈现复杂的相互作用和动态变化,现有方法难以充分将单样本语音中的说话人音色与其他声学特征解耦,导致转换音频在听觉上仍与源说话人的音色特征相似,存在说话人音色泄露情况。为此提出一种融合信息扰动与特征解耦的单样本语音转换模型,即IPFD-VC模型。首先,引入信息扰动模块对语音信号进行三次扰动操作,去除输入内容和韵律编码器中的冗余信息;其次,将处理后的语音信号送入各编码器,并结合最小化互信息策略进一步解耦声学特征,降低不同特征与说话人音色特征的相关性;最后通过解码器及声码器输出转换音频。实验结果表明:IPFD-VC模型转换音频的语音自然度和说话人相似度分别达到3.72和3.68,与目前先进的UUVC模型相比,梅尔倒谱失真降低0.26 dB。该模型能够有效对声学特征进行解耦,捕获目标说话人音色特征,同时保持源语言内容和韵律变化,降低说话人音色泄露风险。; 王光刘宗泽董浩姜彦吉

基于多尺度差异聚合机制的遥感影像道路提取: 2024年; 针对高分辨率遥感图像中地物背景复杂多样,成像过程中道路区域易受树木、建筑物遮挡影响,从中提取道路时易出现局部断连和细节缺失问题,设计并实现了一种基于多尺度差异聚合机制的道路提取网络模型(MSDANet).网络模型整体采用编码-解码器结构,使用Res2Net模块作为编码器骨干网络获取细粒度多尺度特征信息,增大特征提取感受野;同时结合道路形态特征提出一种门控轴向引导模块,用于突出道路特征的表达,改善道路提取长距离断裂现象;此外,设计了一种应用于编解码器之间的多尺度差异聚合模块,用以提取浅层与深层特征间的差异信息并将其聚合,并通过特征融合模块将聚合特征与解码特征融合,促进解码器准确还原道路特征;在高分辨率遥感数据集DeepGlobe和CHN6-CUG上进行模型实验评估,所提方法的F1值分别为80.37%、78.17%,IoU分别为67.18%、64.17%,均优于对比模型.; 许明周春晖姜彦吉; 关键词：道路提取遥感影像

自动驾驶场景类间相似特征自适应分类网络: 2024年; 解决类间相似度问题是自动驾驶场景分类研究中一项充满挑战的任务,主要研究在相似度较高的真实复杂交通场景中,利用网络学习目标特征的差异性,并构建特征之间整体关联性进行场景分类。提出一种多尺度自适应特征筛选的自动驾驶场景分类网络。采用双重多尺度特征提取模块预处理,初步提取不同尺度下的类间相似特征;设计了特征分化筛选模块完成场景相似特征筛选,使网络更关注不同场景类别的典型易区分特征;将特征筛选结果和多尺度特征图共同传递至特征融合分类模块进行场景分类,捕捉场景特征之间的关联性;由自适应学习算法通过输出结果动态调整训练参数,加快网络收敛速度并提升精度。所提方法在三种数据集BDD100k、BDD100k+和自制数据集上与现有网络方法进行比较,相较Top2网络在精度上分别领先了3.29%、5.59%、12.65%(相对),实验结果表明了所提方法的有效性,并展现了很好的泛化能力。提出的场景分类方法旨在学习不同复杂场景类别下的典型易区分的特征及其关联性,降低多目标类间相似的影响,使得在真实交通场景数据集中场景分类结果更加准确。; 姜彦吉冯宇宙董浩田佳琳; 关键词：自动驾驶

基于FPGA的CPU设计分析被引量：1: 2015年; 本文对基于FPGA的CPU设计进行了分析,主要包括CPU指令代码的设计以及电路的设计,对嵌入式CPU设计工作的相关研究具有一定的参考价值。; 李翰姜彦吉; 关键词：嵌入式CPU FPGA

基于S3F94A5XZZ-AQ95的PM2.5监测系统的设计与实现被引量：1: 2018年; 空气污染、雾霾天气会对人体健康造成不容忽视的影响,可诱发多种呼吸系统疾病。为实时监测PM2.5的数值,文中设计了一款基于S3F94A5XZZ-AQ95微处理器的PM2.5监测系统,选择GDP90A光散射粉尘浓度传感器测量PM2.5的数值,通过程序设定,PM2.5超出标准值时,蜂鸣器报警,并在LCD5110屏上动态显示,以提示人们做好预防措施。测试结果表明,该系统能够较精确地测量出PM2.5的数值,误差约3%,操作简便,能耗低,寿命长,具有一定的应用价值。; 许树华张家欣姜彦吉; 关键词：PM2.5 雾霾光散射监测系统

电刺激听神经时不同调制频率之间的相互作用: <正>0引言1听神经编码声刺激和电刺激的调幅信息在锁相强度和发放速率上都存在较大差异,影响人工耳蜗效果[1]。自然声音及言语的时域包络都包含有丰富频率成分,它们之间通过人工耳蜗电刺激会进一步产生非线性作用影响电刺激的听觉...; 李天昊姜彦吉孙梦娜; 关键词：人工耳蜗听神经电刺激调制频率; 文献传递

基于双阶段Conv-Transformer的时频域语音增强算法被引量：3: 2023年; 频域语音增强算法通常存在相位失配问题,而相位信息对于语音增强任务非常重要。时域语音增强算法可以有效解决相位失配问题,但是噪声和语音在频域中更易分离。为了实现时域和频域语音增强算法的优势互补,提出一种基于双阶段Conv-Transformer的时频域语音增强算法。采用编解码结构,将带噪语音经过短时傅里叶变换得到的频域特征和一维卷积处理后得到的时域特征作为输入。考虑到Transformer擅长提取语音序列的全局依赖关系,卷积神经网络可以关注局部特征,为了更好地提取时域和频域中的局部信息和全局信息,设计一种Conv-Transformer模块。在此基础上,联合时域和频域损失函数对模型进行优化,使得模型可以同时学习语音在时域和频域中的分布规律。实验结果表明,与单一域的语音增强算法相比,该算法具有更好的降噪效果,增强后的语音感知质量、短时可懂度、信号失真测度、噪声失真测度、综合质量测度分别为3.04、0.953、4.34、3.55、3.69。; 沈学利田桂源姜彦吉马琳琳; 关键词：语音增强时频域局部信息全局信息

基于LD3320的非特定人识别声控灯系统设计被引量：11: 2015年; 计算机技术的飞速发展带动语音识别技术不断取得突破,功能日渐强大的语音控制系统正逐渐应用于实际生活中。LD3320是一款语音识别专用芯片,响应快,识别率高,系统结合STC11L08XE单片机及外围电路和n RF24L01无线传输芯片进行了声控灯系统总体结构及各个模块的硬件选型和程序编写,并基于非特定人完成了对声控灯系统功能的静态测试,识别率接近95%,实验效果理想。该嵌入式系统体积小、功耗低、性能稳定、实时性好,在生产和生活中具有较高实用价值。; 姜杰文姜彦吉邴晓环王洋; 关键词：语音识别非特定人

姜彦吉

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

姜彦吉

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈