公共文化服务平台

共 2 条记录，以下是 1-2

全选清除导出

排序方式：

Spark上的等值连接优化被引量：12: 2014年; 等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和Repartition Join性能较差,如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将Simi-Join与Partition Join的优势相结合,并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1～2倍.; 卞昊穹陈跃国杜小勇高彦杰

SparkSQL：基于内存的大数据处理引擎被引量：4: 2014年; 作为Shark的下一代技术，SparkSQL的性能已完全超过Shark，且由于底层机制相同，用户可以做到无缝迁移，而受到用户的青睐。本文将深入分析SparkSQL架构思路和优化策略，并与同类产品进行比较。; 高彦杰陈冠诚; 关键词：数据处理引擎内存架构

全选清除导出

共1页<1>

高彦杰