邱鑫
- 作品数:2 被引量:8H指数:1
- 供职机构:武汉大学计算机学院更多>>
- 发文基金:国家自然科学基金湖北省自然科学基金武汉市青年科技晨光计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Hadoop的SQL查询引擎性能研究被引量:8
- 2016年
- Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各有优势,其运算引擎主要包括三种:1传统的Map/Reduce引擎;2新兴的Spark引擎;3基于shared-nothing架构的MPP引擎.本文选取了其中最有代表性的三种SQL查询引擎—Hive、Spark SQL、Impala,并使用了一种类TPC-H的测试基准对它们的决策支持能力进行测试及评估.从实验结果来看,Impala和Spark SQL相对于传统的Hive都有较大的提高,其中Impala的部分查询比Hive快了10倍以上,并且Impala在完成查询所占用的集群资源也是最少的.然而若从稳定性、易用性、兼容性和性能等多个方面进行对比,并不存在各方面均最优的查询引擎,因此在构建基于Hadoop的数据仓库系统时,推荐采用Hive+Impala或者Hive+Spark SQL的混合架构.
- 吴黎兵邱鑫叶璐瑶王晓栋聂雷
- 关键词:SPARKSQLIMPALA
- 面向分布式计算环境的接纳控制机制研究
- 2012年
- 接纳控制算法是分布式计算环境中资源提前预留机制的核心。本文研究总结了现有的灵活预留接纳控制算法,并在此基础上提出一种新的算法——可迁移提前预留接纳控制算法。对于不可拓展的固定请求,它允许通过迁移已预留的可拓展请求,为固定请求空出足够的资源,从而提高固定请求被接纳的概率。性能优良的数据结构对于资源预留有着至关重要的作用,合理的数据结构能显著改善接纳控制的总体性能,本文总结了现有的数据结构,包括时隙数组、时隙线段树、资源树、二叉查找树等。通过与三种经典的可拓展预留接纳控制算法的对比实验表明,可迁移提前预留能改善固定请求接纳率及总请求接纳率。
- 吴黎兵党平聂雷李飞邱鑫
- 关键词:分布式计算接纳控制算法