搜索到424 篇“ 增量挖掘算法 “的相关文章
一种有效的周期高效用序列模式增量 挖掘 算法 2024年 周期高效用序列模式挖掘 (PHUSPM)因其能够发现时间序列中更具实际价值的规律性模式而备受关注,但现有的PHUSPM算法 难以有效地处理数据集的增量 更新,且未考虑大规模数据下算法 的向下闭包性和复杂性。针对该问题,提出了IncPUS-Miner算法 ,有效地实现了周期高效用序列模式(PHUSPs)的增量 挖掘 。IncPUS-Miner引入了一种名为pu-tree的新型数据结构,每个树节点对应一个更新效用列表(UUL)用于存储相应序列的辅助信息,当有增量 数据加入时,该结构使得项目信息能够灵活更新,从而增强了算法 的动态适应性和可扩展性。此外,还提出了两种新的序列效用上界PUB和EUB,以及两种相应的剪枝策略,有效地减少了计算负担。实验结果表明,在真实数据集上,IncPUS-Miner算法 可以有效地增量 挖掘 PHUSPs,与其他算法 相比,在运行效率和内存消耗上展现出了优越的性能。 荀亚玲 任姿芊 闫海博关键词:序列模式挖掘 应用于大数据环境的息熵并行关联规则增量 挖掘 算法 研究 2023年 数据挖掘 是大数据环境下快速发展的新技术,关联规则技术是数据挖掘 的一个主要研究方向,仍存在并行关联规则增量 挖掘 算法 中如何降低Can-Tree结构空间占用率、计算效率不能满足需求等问题。因此,文章研究将信息熵融入关联规则算法 ,实验结果表明,模型对不同数据集适应性良好,可以更有效地提升加速比,缩小数据集规模的同时加快后续Can-Tree的构造,减少运算时间,并且支持度阈值小于其他两种算法 ;并行LZO数据压缩算法 能够显著加快后续阶段的数据传输速度,从而整体减少算法 运行时间。研究设计的息熵并行关联规则增量 挖掘 算法 模型显著优于传统的Apriori等模型,并且运行速度更快,内存占用量更小,具有良好性能表现,相较于其他模型更具有优越性。 肖志良关键词:大数据 数据挖掘 关联规则 信息熵 基于滑动窗口的频繁项集并行增量 挖掘 算法 的研究与应用 随着信息技术的快速发展,需要存储和分析的数据量呈爆炸性增长,如今已经进入了大数据时代,传统的频繁项集挖掘 算法 已经不能适应大数据挖掘 的要求,其面临的困难主要表现在如下三个方面:一是单一计算机无法存储所需要挖掘 的所有数据及挖... 方伟大数据环境下的并行关联规则增量 挖掘 算法 研究 随着信息技术的快速迭代与发展,各行各业产生了规模庞大、结构复杂、种类繁多的数据。从未知的数据中获取有实际应用价值的信息,是数据挖掘 的主要目标。其中,致力于发现数据项之间存在的普遍联系的关联规则技术是数据挖掘 的一个主要研究... 邓千虎关键词:大数据 MAPREDUCE 并行化 基于信息熵与遗传算法 的并行关联规则增量 挖掘 算法 被引量:26 2021年 针对大数据环境下基于Can树的增量 关联规则算法 存在树结构空间占用过大、支持度阈值无法动态设置以及Map与Reduce阶段数据传输耗时等问题,提出了一种基于信息熵和遗传算法 的并行关联规则增量 挖掘 算法 MR-PARIMIEG。首先,该算法 设计基于信息熵的相似项合并策略(SIM-IE)来合并相似数据项,并根据合并后的数据集进行Can树构造,从而减少树结构的空间占用;其次,提出基于遗传算法 的DST-GA策略获取大数据环境下相对最优的动态支持度阈值,根据此阈值进行频繁项集挖掘 ,避免了冗余的频繁模式挖掘 导致的时间消耗;最后,在MapReduce并行化运算过程中使用并行LZO数据压缩算法 对Map端输出数据进行压缩,从而减少传输的数据规模,最终提升算法 的运行速度。实验仿真结果表明,MR-PARIMIEG在大数据环境下进行频繁项集挖掘 时具有较好的性能表现,适用于对较大规模的数据集进行并行化处理。 毛伊敏 邓千虎 陈志刚关键词:信息熵 大数据 数据压缩 改进的并行关联规则增量 挖掘 算法 被引量:7 2021年 针对大数据环境下基于Can树(canonical order tree)的增量 关联规则算法 存在树结构空间占用过大、频繁模式挖掘 效率不佳以及MapReduce集群并行化性能不足等问题,提出了一种基于粗糙集和归并剪枝方法改进的并行关联规则增量 挖掘 算法 MR-PARIRM(MapReduce-based parallel association rules incremental mining algorithm using rough set and merge pruning)。首先,设计了一种基于粗糙集的相似项合并策略RS-SIM(rough set based similar item merge)对数据集的相似项进行合并处理,并根据合并后的数据进行Can树构造,从而降低树结构的空间占用;其次,提出了一种归并剪枝策略MPS(merge pruning strategy)对树结构中的传播路径进行修剪合并,通过压缩频繁模式搜索空间来加快频繁项挖掘 ;最后,通过动态调度策略DSS(dynamic scheduling strategy)对异构式MapReduce集群中的计算任务进行动态调度,实现了负载均衡,有效提升了集群的并行化运算能力。最终的实验仿真结果表明,MR-PARIRM在大数据环境下具有相对较好的性能表现,适用于对大规模数据进行并行化处理。 毛伊敏 邓千虎 邓小鸿 刘蔚关键词:粗糙集 大数据 PFPonCanTree:一种基于MapReduce的并行频繁模式增量 挖掘 算法 被引量:9 2018年 频繁模式挖掘 是最重要的数据挖掘 任务之一,传统的频繁模式挖掘 算法 是以"批处理"方式执行的,即一次性对所有数据进行挖掘 ,无法满足不断增长的大数据挖掘 的需要。MapReduce是一种流行的并行计算模式,在并行数据挖掘 领域已得到了广泛的应用。将传统频繁模式增量 挖掘 算法 CanTree向MapReduce计算模型进行了迁移,实现了并行的频繁模式增量 挖掘 。实验结果表明,提出的算法 实现了较好的负载均衡,执行效率有明显提升。 肖文 胡娟 周晓峰关键词:数据挖掘 频繁模式挖掘 MAPREDUCE HADOOP PFP 基于三支决策的项集增量 挖掘 算法 的研究与应用 在电子商务中,频繁项集挖掘 用于为商家提供具有更多购买次数/频率的商品组合,而高实用性项集挖掘 用于为商家提供具有更大利润的商品组合。近年来,学者们不仅针对频繁项集提出了如Apriori和FUP等经典算法 ,还提出了如Two-... 张智恒关键词:电子商务 频繁项集 文献传递 关联规则增量 挖掘 算法 研究及应用 如何从大量数据中获取不同的个性化信息是信息检索领域的研究热点。此方面的研究主要包括元搜索引擎和查询扩展。综合多个搜索引擎返回结果的元搜索引擎其关注点在于为用户提供更多查询结果,查询扩展则通过将用户提交短查询扩展为更多词组... 王琰关键词:元搜索引擎 查询扩展 一种存在全局站点的分布式增量 挖掘 算法 2013年 随着互联网技术的快速发展与普及,尤其是Web2.0时代的来临,网络数据量与日俱增.对新增数据进行挖掘 成为数据挖掘 领域研究的热点之一.基于存在全局站点的分布式数据挖掘 思想,提出了一种存在全局站点的分布式增量 挖掘 算法 .首先对局部站点的增量 数据进行全局挖掘 ,有效减少了局部站点对原有数据的扫描次数;然后在全局站点采用新的剪枝策略,极大地降低了产生的候选集数量;最后通过实例验证了所给算法 切实可行,并具有较好的挖掘 效率. 徐红艳 陈锋 张森林 冯勇关键词:分布式数据库 剪枝策略
相关作者
毛伊敏 作品数:107 被引量:337 H指数:9 供职机构:江西理工大学 研究主题:不确定数据 滑坡 MAPREDUCE 大数据 聚类算法 吴立锋 作品数:49 被引量:50 H指数:4 供职机构:中南民族大学 研究主题:存储介质 关联规则 哈希 服务器 遗传算法 聂永红 作品数:39 被引量:82 H指数:6 供职机构:广东商学院信息学院 研究主题:数据挖掘 套期保值 期货套期保值 数据库 期货 李春喜 作品数:2 被引量:5 H指数:1 供职机构:苏州大学计算机科学与技术学院 研究主题:频繁项集 增量挖掘算法 信息推荐 协同过滤 电子商务 邹力鹍 作品数:10 被引量:90 H指数:6 供职机构:北京航空航天大学电子信息工程学院 研究主题:数据挖掘 空间数据挖掘 知识发现 最大频繁项目集 关联规则