王吉军
- 作品数:22 被引量:8H指数:2
- 供职机构:江南计算技术研究所更多>>
- 发文基金:国家科技重大专项更多>>
- 相关领域:自动化与计算机技术理学电子电信更多>>
- 一种采用令牌保底分布式贪心算法的环网防饥饿流控方法
- 一种采用令牌保底分布式贪心算法的环网防饥饿流控方法,属于分布控制环网流控技术领域。方法包括步骤S01,当监测到环网的网上状态为空闲时,本地节点发送报文上网;步骤S02,本地节点在一定时间后仍未能传送报文时,请求网上正在传...
- 高剑刚王谛张清波陈庆强王吉军杨萱周玉瀚
- 文献传递
- 3D-MMA:基于3D集成电路的矩阵乘加速结构
- 2019年
- 脉动阵列结构规整、吞吐量大,适合矩阵乘算法,广泛用于设计高性能卷积、矩阵乘加速结构。在深亚微米工艺下,通过增大阵列规模来提升芯片计算性能,会导致频率下降、功耗剧增等问题。因此,结合3D集成电路技术,提出了一种将平面脉动阵列结构映射到3D集成电路上的双精度浮点矩阵乘加速结构3D-MMA。首先,设计了针对该结构的分块映射调度算法,提升矩阵乘计算效率;其次,提出了基于3D-MMA的加速系统,构建了3D-MMA的性能模型,并对其设计空间进行探索;最后,评估了该结构实现代价,并同已有先进加速器进行对比分析。实验结果表明,访存带宽为160 GB/s时,采用4层16×16脉动阵列的堆叠结构时,3D-MMA计算峰值性能达3 TFLOPS,效率达99%,且实现代价小于二维实现。在相同工艺下,同线性阵列加速器及K40 GPU相比,3D-MMA的性能是后者的1.36及1.92倍,而面积远小于后者。探索了3D集成电路在高性能矩阵乘加速器设计中的优势,对未来进一步提升高性能计算平台性能具有一定的参考价值。
- 王吉军郝子宇李宏亮
- 关键词:矩阵乘分块算法
- 3D-ACC:基于3D集成电路的卷积神经网络加速结构研究被引量:1
- 2020年
- 在深亚微米工艺下,通过持续增大芯片规模来提升计算能力,会导致芯片工作频率降低、功耗剧增、计算效率下降等问题。因此,利用3D集成电路技术,提出并量化研究了一种将二维脉动阵列映射到3D集成电路上的卷积神经网络加速器3D-ACC,并设计了一种高效的卷积映射计算方法,构建了其性能模型,量化分析了不同设计参数对3D-ACC性能和效率的影响。实验结果表明,当采用四层64×64脉动阵列的堆叠结构时,3D-ACC的峰值计算性能达32 TFLOPS,测试VGG-16、ResNet-50以及Inception V3模型时的实际计算效率可达47.4%、37.9%及40.9%。与相同计算单元规模的二维加速器2D-ACC相比,3D-ACC的计算效率及性能优势明显,实际计算性能分别是后者的1.51、1.69以及1.61倍。探索了3D集成电路在神经网络加速器设计的优势,对进一步提升神经网络加速器性能具有一定参考价值。
- 王吉军郝子宇李宏亮
- 关键词:脉动阵列
- 一种支持多源多虚通道非连续传输的插花整理方法
- 本发明提供一种支持多源多虚通道非连续传输的插花整理方法,涉及计算机设计技术领域,方法包括以下步骤:S1:目标节点对接收的微片进行解析,将不同微片发送到相应虚通道的接收队列;S2:每个虚通道的接收队列设置一组正在接收包的标...
- 王谛陈庆强张清波杨萱孙红辉严忻恺王吉军
- 通用图形处理器功耗估算模型被引量:2
- 2017年
- 为精准快速地获得GPU功耗数据,提出一种基于硬件性能计数事件的通用图形处理器(GPGPU)功耗估算方法。通过分析GPGPU程序运行时的功耗分布情况,选择一组与应用程序运行功耗密切相关的硬件性能计数事件集合,使用反向传播人工神经网络分析硬件性能计数事件与实时功耗间的关系,最终建立GPGPU功耗估算模型。实验结果表明,与多元线性回归的功耗估算模型相比,该模型具有更高的估算准确性和通用性。
- 王吉军程华
- 关键词:通用图形处理器
- 一种针对访存空间独立的多核处理器的信息处理方法
- 本发明提供一种针对访存空间独立的多核处理器的信息处理方法,涉及计算机设计技术领域,该方法包括以下步骤:S1:增加对目录中有效访存地址范围的记录;S2:当有访存请求时,判断访存请求能否产生新副本,若能则进入一致性流程,反之...
- 张清波陈庆强王谛石嵩周玉瀚王吉军王迪
- 文献传递
- 一种神经网络处理器
- 一种神经网络处理器,属于高性能计算技术领域。本发明包括:控制核心,用于控制各个功能单元上的运算和处理;张量/向量/标量处理阵列,集成有n*m个张量/向量/标量处理单元,用于进行张量/向量/标量计算;内存单元,包括共享内存...
- 李宏亮郝子宇陈左宁王迪王吉军陈芳园
- 支付撤销的多类型分布式管理方法及装置
- 本发明实施例提供一种支付撤销的多类型分布式管理方法及装置,所述方法包括:获取参与同步操作的处理器核,并确定处理器核中的管理者处理器核及参与者处理器核;并在管理者处理器核中设置与参与者处理器核相应的同步标记位;当接收到同步...
- 杨萱高红光唐勇赵冠一孙红辉王吉军
- 一种张量、向量、标量计算加速和数据调度系统
- 一种张量、向量、标量计算加速和数据调度系统,属于高性能计算技术领域。本发明包括:标量处理单元:用于取指和译码,以及发送指令;向量处理单元:用于接收来自标量处理单元的向量指令,完成向量类型数据的调度和计算;张量处理单元:用...
- 郝子宇李宏亮陈左宁王迪王吉军谭弘兵吴智
- 一种支持融合算子生成的快速代码生成装置
- 一种支持融合算子生成的快速代码生成装置,属于深度学习技术领域。本发明包括:LDM区域划分模块,用于根据上层框架输入的网络尺寸参数,对本地的存储空间进行功能分区;融合算子地址配置模块,用于根据上层框架输入的融合算子类型,定...
- 王迪王吉军谭弘兵张昆郝子宇