国家自然科学基金(60633040) 作品数:25 被引量:64 H指数:5 相关作者: 安虹 陈明宇 王耀彬 孙凝晖 徐光 更多>> 相关机构: 中国科学院 中国科学技术大学 中国科学院研究生院 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
组网雷达估测降水系统并行化方案的设计与实现 被引量:5 2012年 国家气象局天气组网雷达定量估测降水系统不仅拥有较大的计算量,而且具有较大的数据吞吐量,同时对实时性要求较高。如果缩短其执行时间,无疑将会带来巨大的收益。鉴于这些特点,使用VTune Amplifer XE对串行程序进行了热点分析和并行性分析,得出程序中有较多线程级并行性,从而制定了相应的并行化方案;然后使用Win32多线程和OpenMP两种技术对该程序在Intel四核处理器平台上进行了并行化。程序主要由单站处理和组网处理两部分组成。由于计算资源的限制,并行后的单站处理程序只有大约10%的性能提升,而组网处理程序则可以达到近似线性的性能提升。通过调整计算负载,并行化版本的加速比可以达到5.5。最后,可以得出该并行化方法适用于计算密集且数据吞吐量较大的一类应用。 吴石磊 安虹 李小强 周伟 刘谷 魏学超关键词:并行性分析 OPENMP 一种输入感知的雷达回波快速聚类实现 2012年 聚类算法作为数据挖掘中的经典算法,在雷达回波的数据分析中经常被采用。然而对于规模和维度都较大的输入数据集,算法十分耗时。很多研究虽然对聚类算法进行了GPU平台的并行和优化的工作,但都忽略了输入数据集对优化的影响。因此,提出了在GPU/CUDA平台上的一种新颖的雷达快速聚类实现。该实现通过运行时的方式对输入的回波数据进行观察,以获取数据的分布信息,用以指导聚类计算在GPU上执行时的线程块调度。而该运行时模块本身的开销非常小。实验表明,引入这种输入感知的运行时调度支持后,大大削减了GPU的计算负载,获得了相对于一般策略的CUDA实现的20%~40%的性能提升,加强了算法的实时性能。 周伟 安虹 刘谷 李小强 吴石磊关键词:聚类算法 图形处理器 统一计算设备架构 利用连续两阶段在线剖析优化多线程推测执行 被引量:2 2009年 针对当前推测多线程优化中使用的离线剖析受到训练输入集限制的问题,提出一种根据在线剖析结果自动变换推测多线程程序的动态优化方法.该方法在程序运行时执行剖析和优化工作,不需要单独的剖析过程以及通用的训练输入集.该方法也适用于那些运行时行为特征呈阶段性变化的程序.实验表明,在指导事务划分和选择并行循环方面,动态优化方法能够达到和静态优化方法相似的效果,完全可以在离线剖析失效时被使用. 刘圆 安虹 汪芳 王莉 王耀彬关键词:推测多线程 事务存储 动态优化 面向应用的流存储系统评测与改进 2010年 有限的片外存储带宽是制约流处理器性能提升的瓶颈之一,流存储系统已经采用了多种方式来缓解这个问题,但当前的设计并没有充分考虑应用具体的访存模式对有效带宽利用率的影响.通过分析和实验,评估流存储系统主要设计参数对不同访存模式的优化效果;在此基础上针对不同的流访问并行度提出了相应的结构改进,加入宽发射和短作业优先调度支持,充分挖掘存储访问的局部性和并行性,改善了负载平衡,从而有效地提高了片外带宽的使用效率和流程序的整体性能. 汪芳 安虹 徐光 许牧 姚平关键词:DRAM 流处理器结构上数据并行类应用的开发和评估 被引量:1 2008年 流处理器体系结构是一种针对流应用中固有的计算和数据流动特点提出的一种新型的处理器体系结构,它结合了向量和超长指令字体系结构的特点,能有效地加速流应用的执行,而它的适用领域一直是当前国际上的热点讨论问题.本文从数据并行应用4个不同领域——数字信号处理、科学计算、网络和安全、以及多媒体处理选取了4个典型应用,详细剖析了这些应用在流体系结构上的流并行程序设计过程,归纳出数据并行类应用的流化步骤和方法,通过实验对这类应用在流体系结构上的适用性做出评估. 王其刚 安虹 徐光 周丽萍 汪芳关键词:流编程模型 一种面向高性能计算机的超节点控制器的研究 被引量:4 2011年 传统高性能计算机的节点由一个处理单元和一个节点控制器组成.为了有效地维护高速缓存一致性,处理单元中的处理器个数会非常有限.因此一台具有千万亿次处理能力的高性能计算机将会有上万个节点,这对互连网络的延迟和带宽都提出了非常高的要求.超节点控制器能够同时连接多个处理单元构成一个超节点,这能够减小互连网络的规模,从而降低互连网络的设计难度,并保证互连网络的性能.用FPGA实现了超节点控制器的原型系统的测试结果表明,采用超节点设计的高性能计算机拥有非常低的通信延迟,同时其通信带宽也有非常好的扩展性. 王凯 陈飞 李强 李晓民 安学军 孙凝晖关键词:高性能计算机 直接内存访问 分片式处理器上的谓词执行技术优化 被引量:1 2012年 谓词执行能使分片式处理器充分利用众多的执行单元,开发指令级并行性.但因此形成的超块也使得分支误预测代价增大,所以提高分支预测器的性能至关重要.本文提出一种基于剖析信息决策的谓词执行技术,该技术利用剖析信息对谓词执行前后的执行周期进行估算,从而对分支的谓词执行进行决策.该技术使分支预测器的命中率提高了0.68%~3.50%,使系统性能提高了1.67%~8.33%.同时,利用select指令表示谓词化指令也消除了重命名阶段寄存器多定义问题. 邓春华 安虹 路璐 王耀彬关键词:谓词执行 分支预测器 PHPC:一种普及型高性能计算机 被引量:8 2008年 高性能计算的一个发展方向是可扩展系统,当前主要是研究千万亿次计算的关键技术;另一个发展方向是普及型系统,为此我们提出了PHPC(personal high performance computer)的一组技术.PHPC的主要特征是:适合办公室环境、规模化产品、用户为中心的使用模式、面向生产率的编程模式.面向普及的个人高性能计算机提供了许多创新研究的机会.基于PHPC的思想,我们给出了称为KD-50-Ⅱ的龙芯万亿次个人高性能计算机的设计,初步验证了PHPC的可行性. 孙凝晖 陈国良Pview:一种基于PMU的支持并行程序性能分析的新方法 被引量:4 2011年 近年来,随着并行编程的普及,性能监测和剖析已经成为计算机系统领域最重要的研究课题之一。PMU(Performance Monitoring Unit),即现代处理器里集成的微体系事件性能计数器,为性能监测提供了底层支持,使得在以极小的额外开销和极少的对目标程序的干扰的情况下对程序进行性能监测成为可能。Pview(Performance View)是一种在系统级支持对并行程序尤其是多线程程序进行性能监测与分析的工具,它同时支持全系统和针对特定进程(线程组)的性能事件直接计数或者抽样的分析方法。Pview在Linux操作系统平台上通过扩展内核2.6.30,实现了一个新的系统调用Pview来提供性能监测服务;同时与以模块方式实现的数据收集引擎协作,可以实现抽样并将大规模样本数据传输到用户空间供进一步分析。 闫洁 徐恒阳 安虹 刘玉 王耀彬关键词:性能监测 激进块执行模型的数据依赖分析 被引量:2 2010年 激进执行模型可以有效利用片上资源开发指令级并行性,与超块概念的结合又使得这一技术具有更好的适用性,但是数据依赖的存在很大程度上削弱了激进的块执行的实际效果,本文从块间数据依赖的分布、依赖深度和推测执行深度几个方面对块执行模型的数据依赖进行了分析;实验表明应用程序中固有的推测执行深度一般不超过10(4~8).此外本文也对寄存器值预测对激进块执行模型的块间数据依赖的影响进行了分析. 张军 安虹 从明 任永青 赵灿明关键词:数据依赖