国家自然科学基金(61272340)
- 作品数:2 被引量:12H指数:2
- 相关作者:赵鑫闫宏飞张旭东毛先领更多>>
- 相关机构:北京大学淘宝(中国)软件有限公司北京理工大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于指令级并行的倒排索引压缩算法被引量:7
- 2015年
- 文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在已有倒排链压缩算法PackedBinary和PForDelta的基础上,利用CPU的超标量特性和SIMD向量指令集,将其压缩和解压缩中的关键步骤并行化,提出了2种指令级并行压缩算法SIMD-PB和SIMD-PFD.基于GOV2和ClueWeb09B两个公开数据集的实验表明,SIMD-PB和SIMD-PFD算法在压缩率不变的情况下,压缩和解压缩速度比现有的压缩算法均有非常明显的提升.其中解压缩速度比起目前最好的倒排链压缩算法,最高能提升17%.此外,实验表明算法在较长的倒排链、较大的压缩块单位上有更好的解压缩性能.
- 闫宏飞张旭东单栋栋毛先领赵鑫
- 关键词:倒排索引整数编码信息检索
- 在线游戏用户的流失预测:基于不平衡数据的采样方法比较和分析被引量:5
- 2016年
- 流失用户预测问题在很多领域都是研究重点。目前主流的流失用户预测方法是使用分类法,即把用户是否会流失看作一个二分类问题来处理。该文提出了一个基于二分类问题解决的在线游戏流失用户预测方法。此方法除了总结了一些对在线游戏而言比较重要的可以用于流失预测的特征之外,也考虑到流失用户相对稀少的问题,在流失用户预测问题中引入了不平衡数据分类的思想。该文主要在流失预测中结合使用了基于采样法的不平衡数据处理策略,并对现有主要的几种采样算法进行了对比实验和分析。
- 吴悦昕赵鑫过岩巍闫宏飞
- 关键词:在线游戏不平衡数据采样法