搜索到840篇“ 去重算法“的相关文章
基于算法的高性能数据风险影响面量化评估方法
本发明公开了基于算法的高性能数据风险影响面量化评估方法,具体涉及数据安全领域,包括数据预处理模块、数据缓存模块、数据风险模块、数据价值模块和数据更新模块。本发明通过基于loglogcounting、linear co...
张腾伟周顿科
网络内容的算法与语义量化研究
2024年
为降低网站对用户的影响,同时提升复的能力,设计了一种能够应用在大型网站的复的创新方案。首先,利用文本预处理技术提取网页正文内容关键词和长句特征码;其次,使用Simhash算法把特征码映射成指纹,并构建关键词指向文档的倒排索引;最后,通过关键词快速找到与待测文档高度相似的文档,接着只需比较待测文档与相似文档的指纹,即可判断网页是否复。结果显示,该算法识别率较高,实用性良好。
谢志豪杨贤
关键词:网页去重特征指纹长句
混合云网络加密数据自动算法优化仿真
2024年
为保证网络用户的加密数据安全性、减少云环境条件下的存储开销,提出一种混合云环境下网络加密数据算法优化算法。分析和评估云环境中的威胁,建立数据加密相关条件,通过多项式加强网络用户加密数据的隐私性。设立机密信息求解的多个必要前提条件,避免其它网络用户通过不合法手段获取数据信息。初始化加密数据的相关参数,确保数据的双线性映射,利用哈希函数确定数据基本特性,区分数据流行度,对不同流行度的数据设定不同的阈值条件,实现网络用户加密数据算法设计和优化。经实验证明,所提算法占用的网络空间较小,具备良好的加密性能,网络传输量较低。
施建王帅
关键词:加密数据去重算法双线性映射
云存储抗边信道攻击的密文数据算法
2024年
考虑云储存中密文数据相似性较高,导致难度过大的问题,提出一种基于执行机构的密文数据算法。构建密文动态平衡跳跃表,根据对动态平衡跳跃表的构建与描述,得到抗边信道攻击的密文数据动态叠加特点。基于密文动态平衡跳跃表构建与更新结果,提出一种抗边信道攻击的数据框架,云储存提供商执行数据加密、数据标签查询以及数据三个过程。云端储存使用标签代表数据查询操作,一旦查询计数超过阈值,执行数据加密程序对该文件进行加密,并按照云储存服务商提供的执行命令对叠密文进行。实验结果证明,所提方法对密文数据效果表现较佳,后云储存空间占用情况得到了明显改善。
吴玲红王葵刘捷
面向可视分析的比特币交易地址算法研究
2024年
比特币是一种基于区块链的加密货币,其因具备匿名性而常被用于异常交易活动中,使得交易者的行为不容易被分析出来。因此,通过有针对性的数据可视化方法对数据进行呈现,以便于对某些实体的活动保持更加全面的了解仍然是一项挑战。作者提出了一种比特币地址算法,解决了比特币交易过程中出现的地址复用现象所产生的环状数据结构问题。该方法按照时序性计算了交易发起方和接收方地址节点的出现次数并记录节点状态,每当发现复使用的地址便会更新当前地址节点状态,并用此最新状态进行覆盖,从而保证处理后的交易数据中不存在地址复使用的问题,降低了数据可视化的难度。然后使用桑基图这一数据可视化方法结合处理后的数据有效地展示了一些交易行为并对其进行分析。实验证明了文中方法的可行性和准确性。
刘志磊王劲松赵泽宁
关键词:数据可视化数据分析
基于事件异构图表示的文本算法被引量:4
2023年
基于图结构的文本表示方法在新闻文本中具有更好的效果.但是,目前该表示方法还不能完整地表示文本的全部信息,并且忽略了图的语义信息,降低了新闻文本的效果.为此,本研究提出基于事件异构图表示的文本算法,该算法首先通过事件异构图表示新闻文本的全局语义与结构信息,然后提出双标签图核算法表征事件异构图,实现深度表征图的结构及语义信息.实验结果表明,该研究提出的算法比现有的基于图结构的文本表示方法在F1-score指标上提升了10%.最后,该算法能提高新闻文本的效果.
艾玮许佳谢灿豪孟涛
关键词:新闻文本文本表示
基于关键词图表示的文本语义算法
2023年
网络中存在大量语义相同或者相似的冗余文本,而文本能够解决冗余文本浪费存储空间的问题,并能为信息抽取任务减少不必要的消耗。传统的文本算法依赖文字合度信息,而没有较好地利用文本语义信息,同时也无法捕捉长文本中距离较远句子之间的交互信息,效果不理想。针对文本语义问题,提出一种基于关键词图表示的长文本算法。首先,通过抽取文本对中的语义关键词短语,将文本对表示为以关键词短语为节点的图;其次,通过多种方式对节点进行编码,并利用图注意力网络(GAT)学习节点之间的关系,从而得到文本对图的向量表示,并判断文本对是否语义相似;最后,根据文本对的语义相似度进行处理。与传统算法相比,所提算法能有效利用文本的语义信息,并能通过图结构将长文本中距离较远的句子用关键词短语的共现关系连接起来,从而增加不同句子之间的语义交互。实验结果表明,所提算法在两个公开数据集CNSE(Chinese News Same Event)和CNSS(Chinese News Same Story)上都取得了比Simhash、BERT(Bidirectional Encoder Representations from Transformers)微调、概念交互图(CIG)等传统算法更好的表现。具体地,所提算法在CNSE数据集上的F1值达到84.65%,在CNSS数据集上的F1值达到90.76%,说明所提算法可以有效提升文本任务的效果。
汪锦云向阳
关键词:关键词抽取文本匹配图表示
一种基于局部敏感哈希的文本数据算法及其实现被引量:2
2023年
预训练语言模型的发展激发对网络数据的大规模需求,而网络数据往往具有较高的复性和相似性,需要经过才能更好地被用于模型训练.目前的算法可以除相似和相同的文本数据,但存在运算效率较低的问题,难以用于处理大规模文本数据.本研究提出一种面向大规模文本数据的算法,采用先局部后整体的策略,极大提高了的运算效率.实验结果表明,算法在50 h内完成371 GB数据的处理,较已有算法极大地提高了效率.
申峻宇李东闻钟震宇张玉志
基于小波域的数字化媒体图像自适应模糊算法被引量:1
2023年
针对目前图像的模糊方法存在处理后图像不清晰、质量不高的问题,提出了基于小波域的数字化媒体图像自适应模糊算法。首先通过小波域方法对数字化媒体图像完成噪处理;其次利用逐步标注显著区域方法将数字化媒体图像分成保护与非保护区域,其中保护区域即为显著区域;最后利用显著性正则化处理图像,完成图像的自适应模糊算法。实验结果表明,基于小波域的数字化媒体图像自适应模糊算法处理后的图像噪声低、质量高、图像信息丰富,清晰度好。
刘家齐
关键词:小波域去噪处理图像分块
混合云环境下多维数据安全算法研究被引量:2
2023年
多维数据复率过高,即多维数据冗余杂乱,会导致目标数据检索困难,数据计算复杂度提升,为了降低多维数据冗余度,提高目标数据检索效率,提出混合云环境下多维数据安全算法。利用小波变换和高白光干涉信号对原始多维数据噪,根据局部非参数建模方法提取噪后的多维数据特征;运用Simhash算法和聚类算法,获取多维数据特征的可识别镜像分段聚类结果;利用DBSCAN算法分割以相同镜像分段为单位的同组多维数据,实现整体多维数据的安全。仿真结果表明,所提方法计算时间开销少、率高。
杨丽华鄂晶晶冯锋
关键词:多维数据小波变换聚类算法

相关作者

吴朋朋
作品数:5被引量:0H指数:0
供职机构:北京邮电大学
研究主题:移动终端 去重 通讯录 去重算法 数据同步
黄玮
作品数:51被引量:30H指数:3
供职机构:中国传媒大学
研究主题:漏洞 恶意 设置方式 靶场 情报
申文明
作品数:7被引量:11H指数:2
供职机构:广西大学
研究主题:翻译 越人 音译 去重 平行语料库
牙漫
作品数:3被引量:27H指数:2
供职机构:重庆大学计算机学院
研究主题:基于网页 去重算法 WEB挖掘 网页去噪 网页结构
刘连芳
作品数:13被引量:59H指数:4
供职机构:广西大学计算机与电子信息学院
研究主题:OSG 去重 全景图拼接 全景图 图像融合