黄敏
- 作品数:2 被引量:1H指数:1
- 供职机构:北京交通大学计算机与信息技术学院更多>>
- 发文基金:江苏省自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 大数据下利用块依赖的并行实体解析算法
- 解析在数据库管理、信息检索中均有广泛应用,大数据时代的到来使得实体解析在海量数据的处理上面临新的挑战.为适应海量数据的实体解析工作,提出基于块依赖的并行实体解析方法,该方法在MapReduce编程框架下分三阶段实现:首先...
- 王宁黄敏
- 关键词:数据库数据处理
- 基于MapReduce与两层相关性聚类的实体解析方法被引量:1
- 2015年
- 两层相关性聚类算法由于引入公共邻居,在解析的正确性及抗噪声能力方面性能较好。但该算法分两层执行,在时间效率上不具优势。为此,提出将该算法在MapReduce框架下实现,利用分布式计算提高其执行效率。通过设计辅助文件减少内存消耗以及中间数据的输出,给出分布式环境下的块更新规则,并改写第二层的调整块算法,将需要实时更新的数据统一计算后,根据更为显著的关联特征进行处理。实验结果表明,与TT算法和DTT算法相比,该方法不仅能保证解析的准确性,而且在时间效率上也有大幅提高。
- 王宁黄敏
- 关键词:MAPREDUCE模型大数据数据集成分布式计算