田海生
- 作品数:4 被引量:6H指数:1
- 供职机构:中国科学院研究生院更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 数据流管理系统中Max、Min聚集算子的示例概要算法
- 2008年
- Max和Min是数据流管理系统中重要聚集算子。应用基于滑动窗口下的示例概要法在实时数据流场景下计算Max和Min。在本方法中不需要保存所有落入滑动窗口中数据元组,这意味着可以极大地减小存储空间。由于存储元组的减少,系统的处理时间也显著地减少。实验结果表明基于滑动窗口的示例概要法显著降低了时间和空间的开销。
- 田海生
- 关键词:数据流管理系统
- 基于大纲的数据流自适应聚集算子的实现被引量:1
- 2007年
- 采用基于大纲的数据流自适应聚集算子的批处理(Batchingprocessing)算法处理数据流,Batching算法能够随着流速的变化动态调整自己的执行策略,以便更好地利用有限的系统资源提供尽可能好的查询质量,并且可以在Batching算法的基础上根据不同的流聚集算子提出相应的优化算法,进一步提高查询质量并真正达到或接近实时查询。实验结果已在北大Argus数据流管理系统中得到成功应用。
- 田海生陈立军
- 关键词:数据流管理系统数据流自适应批处理
- 海量数据搜索被引量:4
- 2005年
- 目前,信息化建设存在的问题是:数据信息利用不充分,大量的数据仅以物理状态被简单地存储着。同时由于无法实现海量数据的高效搜索,使得这些数据无法为企业的发展提供决策支持。如何突破海量数据存储和搜索的瓶颈,让数据为企业决策提供支持已经成为信息化建设的重点。通过数据“变革”使得数据能够更合理的存储、更高效的搜索,智能地使用企业的数据财产来制定出更好的商务决策,以提高企业的竞争力。
- 田海生
- 关键词:海量数据数据存储数据搜索数据仓库数据挖掘
- 一种动态维护分布式环境下top-k集合的近似算法被引量:1
- 2008年
- 在分布式数据流场景中,如何动态维护top-k集合并尽可能地降低通信开销是非常重要的。通常的做法是:把大量的数据从分布式节点传送到中央节点,然后在中央节点计算top-k集合。这样的通信开销非常大,在许多场合下是根本无法实现的。提出了一种高效地动态维护分布式环境下top-k集合的近似算法top-k′。在算法中对一个top-k查询,通过动态维护k′(kmax≥k′≥k)个最高积分的元组,可以从中选取积分最高的k个元组返回。实验表明top-显著降低了各节点与中央协调节点之间的通信代价。
- 田海生陈立军邱海艳赵静
- 关键词:TOP-K分布式数据流