高君宇 作品数:24 被引量:44 H指数:3 供职机构: 中国科学院自动化研究所 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 山东省自然科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
一种基于测试时自适应提示信息的视觉语言导航方法 本发明公开了一种基于测试时自适应提示信息的视觉语言导航方法,包括:获取基于自然语言的导航指令和智能体的360度全景视觉观测信息;提取子图像的低频视觉特征并从图像记忆库中选择有价值的信息进行提示;提取导航指令对应的文本特征... 徐常胜 高君宇 姚暄弱监督视频场景图生成方法、装置及电子设备 本发明提供一种弱监督视频场景图生成方法、装置及电子设备,其中,该方法包括:将目标视频输入训练好的弱监督视频场景图生成模型,得到所述目标视频对应的视频场景图;其中,所述弱监督视频场景图生成模型基于样本视频集、所述样本视频集... 徐常胜 高君宇 吴子越深度相对度量学习的视觉跟踪 被引量:8 2018年 传统的基于检测的跟踪方法虽然具有较好的鲁棒性,但是这种直接将目标与背景简单分类的方式不能合理地考虑跟踪目标与背景的结构相对关系,而这种相对结构判别性信息的缺乏使得跟踪算法极易发生跟踪漂移,为了缓解这种问题,本文提出了一个基于深度相对度量学习的视觉跟踪方法.利用一个对称且权值共享的深度卷积神经网络构建深度相对度量学习模型,通过这个模型来挖掘跟踪目标在大尺度的图像块里的结构相对关系,然后在Bayes跟踪框架下利用这种相对度量最大值确定跟踪目标,整个跟踪算法简洁有效.通过在跟踪的基准视频序列库上的实验结果验证了本文算法在跟踪精度和跟踪成功率上的高性能. 郭文 游思思 高君宇 高君宇 杨小汕 张天柱关键词:卷积神经网络 视觉跟踪 视频片段检索方法、装置、电子设备和可读存储介质 本公开提供了一种视频片段检索方法、装置、电子设备和计算机可读存储介质,涉及视频检索技术领域。其中,视频片段检索方法包括:在候选视频的语义空间中查询查询语句的多个相似语句;基于多个相似语句分别构建图神经网络,得到多个图神经... 徐常胜 高君宇 王威 姚寒星视频片段检索方法、装置、介质与电子设备 本公开提供一种视频片段检索方法、装置、介质与电子设备。其中,视频片段检索方法包括:将原始视频分割为多个候选片段;提取每个所述候选片段的视觉特征;在获取到查询语句时,解析所述查询语句中的语义特征;将所述语义特征与所述候选片... 徐常胜 高君宇 吴子越 姚寒星文献传递 基于联合区域感知语义对齐的开放词汇视频场景图生成方法 本发明提供一种联合区域感知语义对齐的开放词汇视频场景图生成方法,包括:考虑视频的视觉信息和文本信息,对训练集中的视频进行视频语义学习并进行开放词汇的物体轨迹分类;通过蒸馏方式学习开放词汇知识;构造物体视觉信息,物体运动信... 徐常胜 高君宇 吴子越基于深度学习的鲁棒性L1跟踪系统 基于稀疏表示的L1跟踪方法近年来在视觉跟踪中获得了较大的成功.但其直接使用视额序列各帧内的像素值对模板和目标候选进行表示,而没有考虑到各图像块内部的深度特征信息.发现,在固定摄像头的视频监控场景中,通常可以找到一块区域,... 高君宇 杨小汕 张天柱 徐常胜关键词:视频图像 鲁棒性 文献传递 基于深度学习的鲁棒性视觉跟踪方法 被引量:30 2016年 传统的视觉跟踪方法(如L1等)大多直接使用视频序列各帧内的像素级特征进行建模,而没有考虑到各图像块内部的深层视觉特征信息.在现实世界的固定摄像头视频监控场景中,通常可以找到一块区域,该区域中目标物体具有清晰、易于分辨的表观.因此,文中在各视频场景内事先选定一块可以清晰分辨目标表观的参考区域用以构造训练样本,并构建了一个两路对称且权值共享的深度卷积神经网络.该深度网络使得参考区域外目标的输出特征尽可能与参考区域内目标的输出特征相似,以获得参考区域内目标良好表征的特性.经过训练后的深度卷积神经网络模型具有增强目标可识别性的特点,可以应用在使用浅层特征的跟踪系统(如L1等)中以提高其鲁棒性.文中在L1跟踪系统的框架下使用训练好的深度网络提取目标候选的特征进行稀疏表示,从而获得了跟踪过程中应对遮挡、光照变化等问题的鲁棒性.文中在25个行人视频中与当前国际上流行的9种方法对比,结果显示文中提出的方法的平均重叠率比次优的方法高0.11,平均中心位置误差比次优的方法低1.0. 高君宇 杨小汕 张天柱 徐常胜关键词:卷积神经网络 视觉跟踪 鲁棒性 计算机视觉 多模态零样本人体动作识别 被引量:5 2021年 目的在人体行为识别算法的研究领域,通过视频特征实现零样本识别的研究越来越多。但是,目前大部分研究是基于单模态数据展开的,关于多模态融合的研究还较少。为了研究多种模态数据对零样本人体动作识别的影响,本文提出了一种基于多模态融合的零样本人体动作识别(zero-shot human action recognition framework based on multimodel fusion,ZSAR-MF)框架。方法本文框架主要由传感器特征提取模块、分类模块和视频特征提取模块组成。具体来说,传感器特征提取模块使用卷积神经网络(convolutional neural network,CNN)提取心率和加速度特征;分类模块利用所有概念(传感器特征、动作和对象名称)的词向量生成动作类别分类器;视频特征提取模块将每个动作的属性、对象分数和传感器特征映射到属性—特征空间中,最后使用分类模块生成的分类器对每个动作的属性和传感器特征进行评估。结果本文实验在Stanford-ECM数据集上展开,对比结果表明本文ZSAR-MF模型比基于单模态数据的零样本识别模型在识别准确率上提高了4%左右。结论本文所提出的基于多模态融合的零样本人体动作识别框架,有效地融合了传感器特征和视频特征,并显著提高了零样本人体动作识别的准确率。 吕露露 黄毅 高君宇 杨小汕 徐常胜关键词:多模态融合 传感器数据 视频特征 基于自监督图对比学习的视频问答方法 被引量:1 2023年 视频问答作为一种跨模态理解任务,在给定一段视频和与之相关的问题的条件下,需要通过不同模态语义信息之间的交互来产生问题的答案.近年来,由于图神经网络在跨模态信息融合与推理方面强大的能力,其在视频问答任务中取得了显著的进展.但是,大多数现有的图网络方法由于自身固有的过拟合或过平滑、弱鲁棒性和弱泛化性的缺陷使得视频问答模型的性能未能进一步提升.鉴于预训练技术中自监督对比学习方法的有效性和鲁棒性,在视频问答任务中利用图数据增强的思路提出了一种图网络自监督对比学习框架GMC.该框架使用针对节点和边的两种数据增强操作来生成相异子样本,并通过提升原样本与生成子样本图数据预测分布之间的一致性来提高视频问答模型的准确率和鲁棒性.在视频问答公开数据集上通过与现有先进的视频问答模型和不同GMC变体模型的实验对比验证了所提框架的有效性. 姚暄 高君宇 徐常胜