雷晓凤
- 作品数:4 被引量:11H指数:2
- 供职机构:中国科学院高能物理研究所更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于HBase的数据完全本地化分析平台设计与实现被引量:1
- 2016年
- 为充分利用I/O资源并提高数据分析效率,针对高能物理数据分析过程及数据存储特点,利用Java本地接口技术,提出基于HBase C++访问接口的数据完全本地化分析平台,并设计MapReduce模型的相关算法及组件,根据Mapper任务的优化分配及组合提高CPU资源的利用率。通过集成高能物理数据分析环境、作业管理系统、ROOT绘图模块等,实现全新的Web用户接口,简化用户操作。测试结果表明,与传统基于文件存储的数据分析系统相比,该平台的数据分析速度更快,可扩展性更好。
- 雷晓凤李强孙震宇孙功星
- 关键词:MAPREDUCE模型JAVA本地接口
- 基于磁盘I/O性能的Hadoop任务选择策略被引量:4
- 2016年
- 最大化利用本地磁盘的I/O资源是提升计算集群性能的关键,但Hadoop系统中多数调度算法未考虑此项因素。为此,引入磁盘负载作为Map任务选择的权衡参数,任务调度时参照磁盘负载程度选择合适的任务,以保证数据节点上各磁盘的负载相对均衡,并据此设计新的任务选择模块集成到Hadoop的调度器中。同时为进一步提升Hadoop系统的性能,实现Map作业的近似完全本地化执行。实验结果表明,该任务选择策略能够充分利用数据节点本地磁盘的I/O资源,可使节点的I/O Wait平均降低5%,CPU利用率平均上升15%,作业的执行时间缩短20%。
- 李强孙震宇雷晓凤孙功星
- 关键词:调度算法I/O性能
- 支持异构集群并行的高能物理数据处理系统被引量:2
- 2015年
- 传统集群计算系统无法充分利用本地磁盘的存储资源和I/O,大量网络I/O成为系统瓶颈,导致资源利用率降低,并造成高昂的存储和网络成本。使用Hadoop处理分析作业可有效利用本地磁盘存储和I/O资源,而集群资源统一管理工具Mesos则使用轻量化的设计和高效的通信机制,能在不同计算集群之间动态共享集群资源。为此,分析高能物理数据处理的特点,利用Mesos构建异构集群间资源共享的高能物理实验数据处理系统,实现Torque/Maui和Hadoop集群的集成。测试结果表明,该系统能够在集群间动态分配集群资源,并利用本地存储和磁盘I/O显著降低网络I/O,提高集群资源利用率。
- 霍菁雷晓凤李强孙功星
- 关键词:高能物理资源共享HADOOP平台
- 基于HBase的高能物理数据存储及分析平台被引量:7
- 2015年
- 高能物理对撞机产生数百亿计的物理事例,而物理分析则是从中选取几千个有意义的事例,该分析过程是一个典型的大数据处理及数据挖掘应用。由此,设计高效的数据结构、存储及访问机制,快速挑选出有意义的物理事例十分重要。介绍事例的数据结构、存储和处理技术,分析高能物理数据的特点,提出一种以HBase,ROOT,BEAN及Map Reduce为基础的新型高能物理数据存储及处理技术系统。利用HBase存储数据、Map Reduce实现并行处理,选择ROOT和BEAN作为高能物理分析框架,并给出具体设计与实现方案。测试结果表明,与传统高能物理数据存储系统相比,该系统具有更快的数据处理速度,当预筛选服务生效时能够更加有效地利用I/O和CPU资源。
- 雷晓凤李强孙功星
- 关键词:MAPREDUCE框架