王生进 作品数:126 被引量:296 H指数:10 供职机构: 清华大学 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 文化科学 电子电信 交通运输工程 更多>>
一种机器手抓取姿势质量的物理度量方法及装置 本发明提供一种机器手抓取姿势质量的物理度量方法及装置。其中,该方法包括:确定机器手的候选抓取姿势与物体之间接触点的平坦度分数;确定所述候选抓取姿势夹持所述物体的重心分数;基于所述平坦度分数和所述重心分数评估候选抓取姿势的... 王生进 鲁宇豪 李亚利基于部位检测和子结构组合的行人检测方法 被引量:3 2009年 提出了一种基于部位检测和子结构组合的、可用于辅助驾驶或视频监控系统中行人检测的方法。首先使用头部分类器在整幅图像中检测,得到感兴趣区域;然后在每个感兴趣区域内使用头部、躯干、腿部以及左臂和右臂5个人体部位检测器分别检测并使用基于子结构的检测组合方法对部位检测结果进行组合,以得到最终结果。在不同数据库上的实验结果表明,本方法可以有效地用于移动或静止摄像机所拍摄的视频图像中的多姿态及部分遮挡的行人检测。 胡斌 王生进 丁晓青关键词:视频图像 行人检测 基于媒体认知课程的人工智能人才培养方法探索 被引量:1 2018年 1背景
随着电子信息技术日新月异,电子信息教学领域也面临着全新的挑战,需要培养具有全方位视野和超强能力的新一代工程师及领导者。媒体与认知是清华大学电子信息学科在课程体系改革过程中提出的一门重要的必修课程。结合清华大学电子工程系在该领域研究的基础、优势和创新性成果,我们有针对性地将已有科研成果转化为教学内容. 杨毅 颜历 王生进 乔飞关键词:人脸表情 表情识别 卷积神经网络 基于语义嵌入学习的特类视频识别 2023年 暴力视频传播已经成为网络环境治理面临的隐患之一,暴力视频这类特类视频的智能识别技术对维护互联网内容安全具有重要意义.由于采集来源的多样性,暴力视频分布通常呈现较大的类内方差和较小的类间方差,常见的暴力视频识别模型难以适应复杂多变的暴力场景.同时,暴力一词本身具有高度抽象的语义,如何从有限数据中学习通用的暴力语义表示成为一大难点.针对这些问题,本文基于语义嵌入学习的思想,构建了一种新颖的多模态暴力视频识别模型,主要由三部分构成.(1)多模态特征提取.考虑到视频具有多模态属性,采用了三种不同的深度神经网络分别提取表观、运动、音频三种模态的特征表示.(2)多模态特征融合.为获得鲁棒的通用视频表示,设计了一种轻量级的多模态特征融合模块(Multimodal Efficient Fusion Module,MEFM),该模块包括共享空间映射与多模态特征交互两部分,在对多模态特征进行充分交互的同时,又能够有效抑制不同模态信息之间的干扰.(3)语义嵌入学习.为适应不同数据分布的暴力数据集,提出了一种基于语义嵌入的多任务学习方法,通过引入中心损失构建暴力语义中心,并采用余弦嵌入损失将暴力样本向中心聚合、非暴力样本进行离散,形成具有语义判别性的特征表示,从而增强了模型的泛化能力,减少了数据噪声的干扰.在VSD2015,Violent Flows和RWF-2000三个公开数据集上的实验表明,本文提出的暴力视频识别模型较已有方法分别提升了4.79%,0.81%和1.5%,取得了具有竞争力的结果. 吴晓雨 蒲禹江 王生进 刘子豪关键词:多任务学习 面向人口信息人像比对应用的人像比对算法研究 被引量:2 2017年 随着社会各行业对有效的自动身份认证的迫切需求,生物特征识别技术在近几十年取得了飞速的发展。作为人的一种内在属性,人脸具有很强的自身稳定性和个体差异性,并且具有非强制性、非接触性和并发性等特点,成为了自动身份验证最理想的依据。因此人脸识别一直是模式识别领域的热点研究课题。文章首先对人像比对应用的研究背景和意义进行了简要介绍;然后介绍了面向人口信息人像比对应用的人像比对算法流程;其次针对人脸检测、人脸关键点定位和人脸识别这三项关键技术,分别介绍了三者的基本原理和处理流程、研究现状以及存在的问题;最后进行了总结。 康凯 王重道 王生进 范英关键词:人脸检测 人脸识别 数字监控系统中基于阴影消除的目标自动提取 2004年 智能视频监控系统需要从静止摄像头拍摄的实际视频序列中抽取并跟踪运动物体,剔除物体的阴影区域。为此,本文提出一种基于图像边界差值信息的消除阴影的前景检测算法,利用阴影区域图像的边界信息与背景相比基本保持不变的特征,抽取输入图像与背景边沿特征的差值。这样图像前景区域特别是边界附近差值比较大,而背景和阴影区域差值比较小。接着本文采用基于固定网格的围线模型,从图像的外框开始,由外向内收敛,最后收敛围线就是前景物体的边界。实验结果表明,与其他前景检测算法相比,本文算法效率高,前景检测准确率高,可以非常好地消除图像噪声、室内阴影和室外弱阴影。 黄英 丁晓青 王生进关键词:公路交通 SNAKE模型 ReID2.0:从行人再识别走向人像态势计算 2023年 行人再识别(person re-identification,Person ReID)指利用计算机视觉技术对在一个摄像头的视频图像中出现的某个确定行人在其他时间、不同位置的摄像头中再次出现时能够辨识出来,或在图像或视频库中检索特定行人。行人再识别研究具有强烈的实际需求,在公共安全、新零售以及人机交互领域具有潜在应用,具备显著的机器学习和计算机视觉领域的理论研究价值。行人成像存在复杂的姿态、视角、光照和成像质量等变化,同时也有一定范围的遮挡等难点,因此行人再识别面临着非常大的技术挑战。近年来,学术界和产业界投入了巨大的人力和资源研究该问题,并取得了一定进展,在多个数据集上的平均准确率均值(mean average precision,mAP)有了较大提升,并部分开始实际应用。尽管如此,当前行人再识别研究主要还是侧重于服装表观的特征,缺乏对行人表观显式的多视角观测和描述,这与人类观测的机理不尽相符。本文旨在打破现有行人再识别任务的设定,形成对行人综合性观测描述。为推进行人再识别研究的进展,本文在前期行人再识别研究的基础上提出了人像态势计算的概念(ReID2.0)。人像态势计算以像态、形态、神态和意态这4态对人像的静态属性和似动状态进行多视角观测和描述。构建了一个新的基准数据集Portrait250K,包含250000幅人像和对应8个子任务的手动标记的8种标签,并提出一个新的评价指标。提出的人像态势计算从多视角表观信息对行人形成综合性的观测描述,为行人再识别2.0以及类人智能体的进一步研究提供了参考。 王生进 豆朝鹏 樊懿轩 李亚利关键词:计算机视觉 多方向线积分的梯度特征 被引量:1 2011年 典型的梯度特征包括HOG(梯度方向直方图)、Shapelet及Edgelet等,这些特征被广泛用于目标检测、目标识别、图像检索及场景分类等领域。针对HOG特征运算复杂度高的问题,提出了一种新的多方向线积分的梯度特征(MDIG)。通过避免计算梯度方向并利用积分图,该特征简化了计算过程,提高了计算速度,因而便于在DSP等硬件上实现。实验中新特征被应用于人体头肩检测。实验结果表明当使用AdaBoost算法训练分类器时,该特征的描述能力与HOG相当,同时其计算时间仅为HOG的1/3,整体性能优于HOG。最后,针对梯度特征的适用范围对其未来应用的发展方向进行了讨论。 何飞 李亚利 鹿文浩 王生进 丁晓青关键词:梯度特征 梯度方向直方图 基于中层时空特征的人体行为识别 被引量:3 2015年 目的人体行为识别是计算机视觉领域的一个重要研究课题,具有广泛的应用前景。针对局部时空特征和全局时空特征在行为识别问题中的局限性,提出一种新颖、有效的人体行为中层时空特征。方法该特征通过描述视频中时空兴趣点邻域内局部特征的结构化分布,增强时空兴趣点的行为鉴别能力,同时,避免对人体行为的全局描述,能够灵活地适应行为的类内变化。使用互信息度量中层时空特征与行为类别的相关性,将视频识别为与之具有最大互信息的行为类别。结果实验结果表明,本文的中层时空特征在行为识别准确率上优于基于局部时空特征的方法和其他方法,在KTH数据集和日常生活行为(ADL)数据集上分别达到了96.3%和98.0%的识别准确率。结论本文的中层时空特征通过利用局部特征的时空分布信息,显著增强了行为鉴别能力,能够有效地识别多种复杂人体行为。 王泰青 王生进基于非刚性ICP的三维人脸数据配准算法 被引量:9 2014年 三维人脸扫描数据的配准是三维人脸统计学习的基础和前提。为了解决离散点群数据的精确配准问题,该文提出一种融合弹性形变的非刚性最近点迭代(ICP)三维人脸数据配准算法。该算法利用稀疏的特征点逐步形变一个高分辨率的三维模板网格(模板三维人脸)以逼近三维人脸扫描数据(目标三维人脸)。此形变过程可以建模为一个关于模板人脸上每个顶点的仿射变换的优化问题。此外,该算法通过引入弹性形变在不损失配准精度的前提下加速了配准过程。在此基础上,该文提出一种融合弹性形变和三维配准的三维人脸的头部缺失数据补齐算法,使得三维人脸模型更具有真实感和完整性。实验表明,该算法比一种目前较为广泛应用的人脸头部补齐算法更具鲁棒性。 林源 梁舒 王生进关键词:三维人脸 非刚性配准