搜索到424篇“ 增量挖掘算法“的相关文章
一种有效的周期高效用序列模式增量挖掘算法
2024年
周期高效用序列模式挖掘(PHUSPM)因其能够发现时间序列中更具实际价值的规律性模式而备受关注,但现有的PHUSPM算法难以有效地处理数据集的增量更新,且未考虑大规模数据下算法的向下闭包性和复杂性。针对该问题,提出了IncPUS-Miner算法,有效地实现了周期高效用序列模式(PHUSPs)的增量挖掘。IncPUS-Miner引入了一种名为pu-tree的新型数据结构,每个树节点对应一个更新效用列表(UUL)用于存储相应序列的辅助信息,当有增量数据加入时,该结构使得项目信息能够灵活更新,从而增强了算法的动态适应性和可扩展性。此外,还提出了两种新的序列效用上界PUB和EUB,以及两种相应的剪枝策略,有效地减少了计算负担。实验结果表明,在真实数据集上,IncPUS-Miner算法可以有效地增量挖掘PHUSPs,与其他算法相比,在运行效率和内存消耗上展现出了优越的性能。
荀亚玲任姿芊闫海博
关键词:序列模式挖掘
应用于大数据环境的息熵并行关联规则增量挖掘算法研究
2023年
数据挖掘是大数据环境下快速发展的新技术,关联规则技术是数据挖掘的一个主要研究方向,仍存在并行关联规则增量挖掘算法中如何降低Can-Tree结构空间占用率、计算效率不能满足需求等问题。因此,文章研究将信息熵融入关联规则算法,实验结果表明,模型对不同数据集适应性良好,可以更有效地提升加速比,缩小数据集规模的同时加快后续Can-Tree的构造,减少运算时间,并且支持度阈值小于其他两种算法;并行LZO数据压缩算法能够显著加快后续阶段的数据传输速度,从而整体减少算法运行时间。研究设计的息熵并行关联规则增量挖掘算法模型显著优于传统的Apriori等模型,并且运行速度更快,内存占用量更小,具有良好性能表现,相较于其他模型更具有优越性。
肖志良
关键词:大数据数据挖掘关联规则信息熵
基于滑动窗口的频繁项集并行增量挖掘算法的研究与应用
随着信息技术的快速发展,需要存储和分析的数据量呈爆炸性增长,如今已经进入了大数据时代,传统的频繁项集挖掘算法已经不能适应大数据挖掘的要求,其面临的困难主要表现在如下三个方面:一是单一计算机无法存储所需要挖掘的所有数据及挖...
方伟
大数据环境下的并行关联规则增量挖掘算法研究
随着信息技术的快速迭代与发展,各行各业产生了规模庞大、结构复杂、种类繁多的数据。从未知的数据中获取有实际应用价值的信息,是数据挖掘的主要目标。其中,致力于发现数据项之间存在的普遍联系的关联规则技术是数据挖掘的一个主要研究...
邓千虎
关键词:大数据MAPREDUCE并行化
基于信息熵与遗传算法的并行关联规则增量挖掘算法被引量:26
2021年
针对大数据环境下基于Can树的增量关联规则算法存在树结构空间占用过大、支持度阈值无法动态设置以及Map与Reduce阶段数据传输耗时等问题,提出了一种基于信息熵和遗传算法的并行关联规则增量挖掘算法MR-PARIMIEG。首先,该算法设计基于信息熵的相似项合并策略(SIM-IE)来合并相似数据项,并根据合并后的数据集进行Can树构造,从而减少树结构的空间占用;其次,提出基于遗传算法的DST-GA策略获取大数据环境下相对最优的动态支持度阈值,根据此阈值进行频繁项集挖掘,避免了冗余的频繁模式挖掘导致的时间消耗;最后,在MapReduce并行化运算过程中使用并行LZO数据压缩算法对Map端输出数据进行压缩,从而减少传输的数据规模,最终提升算法的运行速度。实验仿真结果表明,MR-PARIMIEG在大数据环境下进行频繁项集挖掘时具有较好的性能表现,适用于对较大规模的数据集进行并行化处理。
毛伊敏邓千虎陈志刚
关键词:信息熵大数据数据压缩
改进的并行关联规则增量挖掘算法被引量:7
2021年
针对大数据环境下基于Can树(canonical order tree)的增量关联规则算法存在树结构空间占用过大、频繁模式挖掘效率不佳以及MapReduce集群并行化性能不足等问题,提出了一种基于粗糙集和归并剪枝方法改进的并行关联规则增量挖掘算法MR-PARIRM(MapReduce-based parallel association rules incremental mining algorithm using rough set and merge pruning)。首先,设计了一种基于粗糙集的相似项合并策略RS-SIM(rough set based similar item merge)对数据集的相似项进行合并处理,并根据合并后的数据进行Can树构造,从而降低树结构的空间占用;其次,提出了一种归并剪枝策略MPS(merge pruning strategy)对树结构中的传播路径进行修剪合并,通过压缩频繁模式搜索空间来加快频繁项挖掘;最后,通过动态调度策略DSS(dynamic scheduling strategy)对异构式MapReduce集群中的计算任务进行动态调度,实现了负载均衡,有效提升了集群的并行化运算能力。最终的实验仿真结果表明,MR-PARIRM在大数据环境下具有相对较好的性能表现,适用于对大规模数据进行并行化处理。
毛伊敏邓千虎邓小鸿刘蔚
关键词:粗糙集大数据
PFPonCanTree:一种基于MapReduce的并行频繁模式增量挖掘算法被引量:9
2018年
频繁模式挖掘是最重要的数据挖掘任务之一,传统的频繁模式挖掘算法是以"批处理"方式执行的,即一次性对所有数据进行挖掘,无法满足不断增长的大数据挖掘的需要。MapReduce是一种流行的并行计算模式,在并行数据挖掘领域已得到了广泛的应用。将传统频繁模式增量挖掘算法CanTree向MapReduce计算模型进行了迁移,实现了并行的频繁模式增量挖掘。实验结果表明,提出的算法实现了较好的负载均衡,执行效率有明显提升。
肖文胡娟周晓峰
关键词:数据挖掘频繁模式挖掘MAPREDUCEHADOOPPFP
基于三支决策的项集增量挖掘算法的研究与应用
在电子商务中,频繁项集挖掘用于为商家提供具有更多购买次数/频率的商品组合,而高实用性项集挖掘用于为商家提供具有更大利润的商品组合。近年来,学者们不仅针对频繁项集提出了如Apriori和FUP等经典算法,还提出了如Two-...
张智恒
关键词:电子商务频繁项集
文献传递
关联规则增量挖掘算法研究及应用
如何从大量数据中获取不同的个性化信息是信息检索领域的研究热点。此方面的研究主要包括元搜索引擎和查询扩展。综合多个搜索引擎返回结果的元搜索引擎其关注点在于为用户提供更多查询结果,查询扩展则通过将用户提交短查询扩展为更多词组...
王琰
关键词:元搜索引擎查询扩展
一种存在全局站点的分布式增量挖掘算法
2013年
随着互联网技术的快速发展与普及,尤其是Web2.0时代的来临,网络数据量与日俱增.对新增数据进行挖掘成为数据挖掘领域研究的热点之一.基于存在全局站点的分布式数据挖掘思想,提出了一种存在全局站点的分布式增量挖掘算法.首先对局部站点的增量数据进行全局挖掘,有效减少了局部站点对原有数据的扫描次数;然后在全局站点采用新的剪枝策略,极大地降低了产生的候选集数量;最后通过实例验证了所给算法切实可行,并具有较好的挖掘效率.
徐红艳陈锋张森林冯勇
关键词:分布式数据库剪枝策略

相关作者

毛伊敏
作品数:107被引量:337H指数:9
供职机构:江西理工大学
研究主题:不确定数据 滑坡 MAPREDUCE 大数据 聚类算法
吴立锋
作品数:49被引量:50H指数:4
供职机构:中南民族大学
研究主题:存储介质 关联规则 哈希 服务器 遗传算法
聂永红
作品数:39被引量:82H指数:6
供职机构:广东商学院信息学院
研究主题:数据挖掘 套期保值 期货套期保值 数据库 期货
李春喜
作品数:2被引量:5H指数:1
供职机构:苏州大学计算机科学与技术学院
研究主题:频繁项集 增量挖掘算法 信息推荐 协同过滤 电子商务
邹力鹍
作品数:10被引量:90H指数:6
供职机构:北京航空航天大学电子信息工程学院
研究主题:数据挖掘 空间数据挖掘 知识发现 最大频繁项目集 关联规则