牛铁 作品数:16 被引量:53 H指数:4 供职机构: 中国科学院计算机网络信息中心 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 经济管理 自然科学总论 电子电信 更多>>
基于通信优化的Infiniband集群MPI作业加载 被引量:1 2011年 针对如何缓解Infiniband集群中因通信冲突引起的MPI程序性能下降问题进行了研究,从系统管理的角度出发,提出了通过改变进程映射来优化MPI作业加载方案从而优化应用程序通信性能的方法,设计了用于评价MPI作业加载方案的通信性能损失系数(CPLR)指标,基于模拟退火算法设计了优化加载方案的搜索算法,并对所提出的指标和算法进行了实现和测试。测试结果表明,经过优化加载后的MPI程序在通信性能上有一定程度的提高。 曹宗雁 牛铁 赵毅 朱鹏 迟学斌关键词:高性能计算机 INFINIBAND 集群 MPI 通信优化 浅析高性能计算应用的需求与发展 被引量:32 2007年 高性能计算应用在高性能计算技术的支持下为科技创新做出了巨大贡献,并且和高性能计算技术在相辅相成中不断发展.自2004年以来,中国科学院计算机网络信息中心超级计算中心针对中国科学院在"十一五"期间的高性能计算需求在全院范围内开展了多次调研活动,对中国科学院在"十一五"期间高性能计算的整体需求及各应用领域需求的分布情况有了比较全面的了解,其调研结果对"十一五"中国科学院高性能计算环境建设和高性能计算应用的发展具有良好的借鉴作用.首先介绍了国内外高性能计算应用的发展现状,并结合中国科学院高性能计算环境建设和高性能计算应用的发展情况,分析了"十一五"中国科学院高性能计算的应用需求,最后对我国高性能计算应用的发展前景进行了展望. 赵毅 朱鹏 迟学斌 牛铁 曹宗雁关键词:高性能计算机 网格 基于XGBoost模型的超算作业运行状态预测研究 2024年 【背景】在高性能计算系统中,作业运行一段时间后可能失败或者异常退出,导致计算资源被占用但未得到满意结果。【目的】对计算作业异常运行状态的检测和预警可以帮助用户、管理人员提前介入干预,减少资源浪费,更早和更好地跟踪分析异常原因。【方法】本文基于大型超级计算集群真实监控数据,从作业运行状态和特征的角度,采用XGBoost算法对各类型作业的运行状态进行异常检测,并对作业是否失败进行预测。【结果】通过对算法的比较和分析,发现XGBoost能够较准确地预测作业失败。【结论】本文研究为高性能计算作业的异常检测和预警拓展了一种新的研究思路,对帮助用户更高效使用昂贵的超级计算资源具有积极意义。 纪鹏 牛铁 危婷 彭亮超级计算集群的安全防护 由于具有很高的计算能力和存储空间,超级计算集群是攻击者眼中具有吸引力的目标,安全形势不容乐观。本文从超级计算集群的特点出发,分析了它可能面临的安全风险,结合运行经验和其追求性能最大化的实际,有针对性的给出内外兼顾的综合防... Niu Tie 牛铁 Zhu Peng 朱鹏 Cao Zongyan 曹宗雁 Liu Fei 刘飞关键词:计算机网络 安全防护 集群系统 访问控制 管理程序 面向集群服务器系统的监控平台综述 被引量:4 2018年 为保证云计算、高性能计算集群服务器系统的服务能力,需构建监控平台对各种来源数据的实现统一管理、统计分析和展现。本文面向集群服务器系统监控平台的搭建方式,综述当前各种常见的监控平台架构和组件,分析各类平台在部署、数据规模、统计分析能力以及时效性等方面的不同。分析结果表明,集群服务器系统监控平台搭建方案应根据监控数据规模、时效性要求、查询和统计需求选择方案。 胡鹤 赵毅 牛铁 曹荣强关键词:索引 大数据 报警 ELK MAP-REDUCE SPARK 一种超融合计算系统架构及融合服务平台 本发明涉及一种超融合计算系统架构及融合服务平台。该架构将超级计算系统、大数据云系统、数据存储系统以及高速网络系统融合于单一计算系统中。其中,超级计算系统利用并行化计算方法满足对计算精度、计算规模具有较高要求的科研数据处理... 牛铁 肖海力 张海明 胡笑然 卢莎莎 张岩 白鹤鸣文献传递 基于特征分析的HPC失败作业的检测和根因分析 被引量:1 2023年 【背景】在高性能计算系统中,更早、更快地发现计算作业异常及其退出原因,可以帮助用户缩短纠错时间,更有效地使用价格不菲的计算资源。【目的】为了实现对计算作业异常的预警,快速定位作业失败根因,提高用户使用体验。【方法】本文基于某超大型超级计算集群的监控数据,针对特定应用分析了运行特征与计算作业运行成败的关系。采用Isolation Forest算法对作业运行时所在计算节点的运行状态进行异常检测,并对作业是否失败进行预测;通过特征分析,同时结合日志和其他故障数据构建HPC作业失败根因图谱。【结果】通过对算法的数值分析,发现Isolation Forest能够较准确地预测作业失败。基于应用运行特征关联分析构造的根因图谱,可较好地融汇作业运行和资源使用情况的所有影响因子,并展现所有因子的因果关系。【结论】本文的研究可以帮助高性能计算系统,特别是超大型超级计算系统的管理人员、用户尽早发现计算作业异常,并快速提供问题定位依据,对减少计算资源浪费、提高计算效率具有重要意义。 危婷 彭亮 牛铁 张宏海基于用户评价的集群作业优先级调度 被引量:2 2011年 从超级计算中心建设和服务的实际需求出发,设计并实现了基于用户评价的集群作业优先级调度策略,从而为科学研究计算提供更多有效机时.从用户基本属性、行为特征以及用户作业的类别、规模、运行时长估算和容错性等几个方面对用户评价的原则进行探讨,并结合LSF作业管理系统阐述了作业优先级调度的实现和应用过程.选取用户作业时长估算和作业规模2个指标进行具体的量化和模拟实验,测试结果表明在调度策略作用下获评价较高的用户及其作业能够更优先地获得系统资源. 曹宗雁 赵毅 牛铁 朱鹏 迟学斌关键词:高性能计算机 集群 作业调度 用户评价 基于RSTD的5G定位精度分析 2024年 在3GPP和产业界的推动下,5G定位服务的各种标准不断迭代更新,5G定位能力迈向了新阶段。目前,国内外基于RSTD的5G定位精度并未得到充分的分析和验证。本文详细分析了5G下行定位参考信号(Positioning Reference Signal,PRS)的物理结构,并对其重要参数进行了阐释。对RSTD的PRS信号处理和定位过程进行了深入讨论,随后推导了PRS信号到达时间(Time of Arrival,TOA)的克拉美罗下界(Cramér–Rao lower bound,CRLB),据此得到参考信号时间差(Reference Signal Time Difference,RSTD)的定位精度极限。本文仿真了不同PRS参数下的RSTD定位误差,仿真结果显示:增加信噪比、用于定位的带宽资源、子载波间隔,减少梳齿尺寸,能够提高定位性能,这和CRLB公式的趋势一致。最终通过实验分析提出了提高5G定位精度的建议,以期为相关领域的研究和实践提供有益的参考。 胡龙星 王题 牛铁 牛铁 张祺媛一种超融合计算系统架构及融合服务平台 本发明涉及一种超融合计算系统架构及融合服务平台。该架构将超级计算系统、大数据云系统、数据存储系统以及高速网络系统融合于单一计算系统中。其中,超级计算系统利用并行化计算方法满足对计算精度、计算规模具有较高要求的科研数据处理... 牛铁 肖海力 张海明 胡笑然 卢莎莎 张岩 白鹤鸣 黎建辉 迟学斌