金琴
- 作品数:17 被引量:63H指数:4
- 供职机构:中国人民大学信息学院更多>>
- 发文基金:国家自然科学基金北京市自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术电子电信电气工程更多>>
- 基于全局和局部信息的视频记忆度预测被引量:4
- 2020年
- 视频的记忆度是一种度量指标,用来表示一段视频能够普遍被人记住的程度.令人记忆深刻而难忘的视频具有很大的潜在价值,因此对能够进行大规模视频记忆度自动预测的模型将会有广大的应用前景和市场,例如视频检索、数字内容推荐、广告设计、教育系统等等.现有的大部分工作都是直接利用深度神经网络学习到的一个全局表示来进行记忆度的预测,没有给予局部细节足够的重视.提出了一个基于全局和局部信息的视频记忆度预测模型,其中,包含3个模块:全局性的上下文表示模块、空间布局表示模块和局部的物体注意力模块.在实验结果中,全局性的上下文表示模块和局部的物体注意力模块分别具有很好的表现.而空间布局表示模块的预测能力虽不如其他两个模块,但3个模块的融合使结果有了进一步的提升.最后,在MediaEval 2018 Media Memorability Prediction Task的数据集上证明了模型的有效性.
- 王帅王维莹陈师哲金琴
- 关键词:神经网络
- 多文化场景下的多模态情感识别被引量:9
- 2018年
- 自动情感识别是一个非常具有挑战性的课题,并且有着广泛的应用价值.探讨了在多文化场景下的多模态情感识别问题.从语音声学和面部表情等模态分别提取了不同的情感特征,包括传统的手工定制特征和基于深度学习的特征,并通过多模态融合方法结合不同的模态,比较不同单模态特征和多模态特征融合的情感识别性能.在CHEAVD中文多模态情感数据集和AFEW英文多模态情感数据集进行实验,通过跨文化情感识别研究,验证了文化因素对于情感识别的重要影响,并提出3种训练策略提高在多文化场景下情感识别的性能,包括:分文化选择模型、多文化联合训练以及基于共同情感空间的多文化联合训练,其中,基于共同情感空间的多文化联合训练通过将文化影响与情感特征分离,在语音和多模态情感识别中均取得最好的识别效果.
- 陈师哲王帅金琴
- 关键词:情感识别多模态融合
- 级联H桥五电平SVPWM逆变器的仿真研究
- 2015年
- 本文论述了级联H桥五电平SVPWM逆变器的电路结构和工作原理。在Matlab/Simulink基础上利用M文件模型以编程的方式来实现控制算法,解决了传统搭建多电平模型仿真时大量使用开关逻辑模块的问题。最后通过MATLAB仿真对所编写的五电平SVPWM控制算法进行验证,通过仿真结果的观察,验证了控制算法和模型搭建的正确性。
- 常国祥金琴宋红超
- 关键词:级联H桥SVPWMM文件
- 基于声学特征的语言情感识别被引量:9
- 2015年
- 语音情感识别是语音处理领域中一个具有挑战性和广泛应用前景的研究课题。探索了语音情感识别中的关键问题之一:生成情感识别的有效的特征表示。从4个角度生成了语音信号中的情感特征表示:(1)低层次的声学特征,包括能量、基频、声音质量、频谱等相关的特征,以及基于这些低层次特征的统计特征;(2)倒谱声学特征根据情感相关的高斯混合模型进行距离转化而得出的特征;(3)声学特征依据声学词典进行转化而得出的特征;(4)声学特征转化为高斯超向量的特征。通过实验比较了各类特征在情感识别上的独立性能,并且尝试了将不同的特征进行融合,最后比较了不同的声学特征在几个不同语言的情感数据集上的效果(包括IEMOCAP英语情感语料库、CASIA汉语情感语料库和Berlin德语情感语料库)。在IEMOCAP数据集上,系统的正确识别率达到了71.9%,超越了之前在此数据集上报告的最好结果。
- 金琴陈师哲李锡荣杨刚许洁萍
- 关键词:语音情感识别声学特征
- 基于多模态融合与成对排序模型的视频兴趣度预测
- 视频兴趣度预测有着广泛的应用前景,比如提高视频检索和视频推荐的性能。由于每个人的喜好不同,想要找到通用的兴趣度准则是十分困难的。在本文中,我们构建了基于多模态特征融合和成对排序模型学习的预测系统。系统能利用视频中的听觉和...
- 王帅陈师哲金琴
- 关键词:兴趣度多模态融合
- 文献传递
- 强度和类型可控的人脸表情生成被引量:2
- 2022年
- 为了使机器生成更复杂、细腻的人脸表情,提出了一种对生成表情的类型和强度同时进行控制的机制,即将编码后的情感特征与面部动作单元解析结果共同参与学习,使融合该机制的模型不仅能生成不同类型、不同强度的表情,还支持混合表情的生成,且使生成图像更具有情绪感染力;并在模拟现实的场景下对融合该机制的模型进行应用测试,利用社交文本信息所传达出的情感,生成随情感连续变化的表情图像。
- 吴宇宁金琴
- 关键词:计算机图像处理计算机视觉
- 悟道·文澜:超大规模多模态预训练模型带来了什么?被引量:1
- 2022年
- 提出了悟道·文澜的BriVL双塔模型。该模型利用6.5亿对互联网图文数据,通过自监督的任务来训练,是目前最大的中文通用图文预训练模型。同时,还提出了悟道·文澜的多语言多模态预训练单塔模型—MLMM。实验结果证明,这两个模型在多个国际公开数据集上均取得了最佳性能。设计了实验并讨论超大规模多模态预训练模型对文本编码、图像生成和图文互检带来的影响,以及文澜模型的落地应用与学科交叉成果。
- 卢志武金琴宋睿华文继荣
- 文本信息辅助图像差异描述生成
- 2022年
- 图像描述生成任务要求机器自动生成自然语言文本来描述图像所呈现的语义内容,从而将视觉信息转化为文本描述,便于对图像进行管理、检索、分类等工作。图像差异描述生成是图像描述生成任务的延伸,其难点在于如何确定2张图像之间的视觉语义差别,并将视觉差异信息转换成对应的文本描述。基于此,提出了一种引入文本信息辅助训练的模型框架TA-IDC。采取多任务学习的方法,在传统的编码器-解码器结构上增加文本编码器,在训练阶段通过文本辅助解码和混合解码2种方法引入文本信息,建模视觉和文本2个模态间的语义关联,以获得高质量的图像差别描述。实验证明,TA-IDC模型在3个图像差异描述数据集上的主要指标分别超越已有模型最佳结果12%、2%和3%。
- 陈玮婧王维莹金琴
- 关键词:图像描述计算机视觉自然语言处理
- 情感识别中的迁移学习问题综述被引量:4
- 2023年
- 情感识别是实现自然人机交互的必要过程。然而,情感数据高昂的采集和标注成本成为了限制情感识别研究发展的一大瓶颈。在无标注或有限标注的场景下,利用知识的跨领域或跨任务迁移提升情感识别效果的问题值得探索。本文对情感识别中的迁移学习问题进行了梳理和分析。首先,将迁移学习问题划分为针对领域差异和针对任务差异的两大部分,并进一步将每部分问题细分为多种不同的情况。随后,基于情感识别领域的研究现状,分别总结不同情况下的现有工作。在目标领域训练资源匮乏的情况下,可以利用其他带标注的数据集作为源领域训练模型,并对齐不同领域下的特征分布,或将特征映射到域间共享的空间。考虑到情感标签所提供的监督信息往往较为有限,为了进一步提升模型的识别效果,可以引入其他相关任务进行联合训练,或将预训练模型、外部知识库提供的先验语义知识迁移到情感识别任务中。最后,讨论了情感识别领域中未来需要得到更多关注和探索的迁移学习问题,旨在为研究者带来新的启发。
- 黄兆培张峰源赵金明金琴
- 关键词:情感识别
- 基于MATLAB的SVPWM逆变器的仿真实现被引量:4
- 2014年
- 介绍了SVPWM的基本原理和算法,利用MATLAB/SIMULINK工具箱搭建了SVPWM逆变器的仿真模型,最后给出了实验的仿真结果。通过对仿真结果波形的观察,验证了算法的正确性,也为实际硬件电路的设计和调试提供了依据。
- 宋红超金琴张卫芳
- 关键词:SVPWMMATLAB/SIMULINK逆变器仿真