赵欣
- 作品数:2 被引量:24H指数:1
- 供职机构:重庆大学计算机学院更多>>
- 发文基金:中国博士后科学基金博士后科研启动基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Spark的大数据统计中等值连接问题的优化
- 2017年
- 伴随着互联网应用技术的飞速发展,导致传统的数据处理技术已经无法满足对大数据高效处理的要求。因此对现有的大数据的统计分析便急需相应的大数据技术的支持。为了解决实际Spark应用中的Join操作低效的问题,首先,提出一种高效的基于BloomFilter过滤再分区算法,通过该算法率先过滤掉绝大部分不符合条件的无效连接,然后针对过滤数据产生的倾斜问题进行再分区操作,以便能充分发挥各个工作节点的计算资源,达到在最大程序上优化Join过程的目的。
- 刘容辰周明强皮兴杰赵欣
- 关键词:大数据SPARKBLOOMFILTERSHUFFLE
- 基于出租车轨迹数据的城市热点出行区域挖掘被引量:24
- 2018年
- 出租车轨迹是蕴含着居民出行行为的地理时空大数据,从出租车轨迹数据中挖掘居民出行的热点区域和移动模式对于城市规划、交通管理等具有重要意义。针对现有热点区域挖掘方法在面对大规模轨迹数据时存在的伸缩性差、计算效率低等问题,提出一种基于网格密度的GScan聚类算法。该算法首先将轨迹空间划分成网格单元,并设定网格单元的密度阈值;然后将轨迹点映射到网格单元,基于密度阈值提取热点网格单元;通过合并可达热点网格单元发现城市的热点区域。以重庆市出租车轨迹载客/卸客点进行实例分析,给出网格单元大小和密度阈值2个参数的设定方法,得到重庆市主城区居民出租车出行热点区域的时空分布,进而分析重庆市居民出行行为。
- 郑林江赵欣赵欣邓建国夏冬刘卫宁