国家自然科学基金(61379052) 作品数:11 被引量:81 H指数:4 相关作者: 王意洁 许方亮 裴晓强 王媛 马行空 更多>> 相关机构: 国防科学技术大学 国防科技大学 更多>> 发文基金: 国家自然科学基金 湖南省自然科学杰出青年基金 国家教育部博士点基金 更多>> 相关领域: 自动化与计算机技术 更多>>
一种通用可扩展的在线警报关联方法 2015年 大规模网络环境下,多样化网络攻击类型产生的高速警报数据流,对警报关联方法的通用性、实时性以及系统开销控制提出了很高的要求.目前警报关联技术相关研究多是基于集中式结构的算法设计,难以满足实时性的要求;而已有少数分布式警报关联系统未深入考虑负载均衡和系统开销控制.为此,提出了一种通用可扩展的在线警报关联方法CACDS(causal alert correlation on distributed system).CACDS在分布式流处理环境中采用"分派-汇聚"机制作为在线警报关联的基本框架.基于该框架,CACDS采用因果逻辑方法进行关联分析,松弛匹配警报之间的前因后果,能够对各种不同攻击类型进行有效检测.为了充分利用分布式环境下各节点资源,提出一种混合式关联图划分技术,以不同警报类型引起的计算开销和系统开销为依据,警报被映射至不同的关联进程中以实现并行警报关联,保证了系统实时性和低开销.基于Storm平台的原型系统实验表明,与其他方法相比,CACDS具有更好的可扩展性、更高的吞吐率和更低的系统开销. 程力 王意洁 马行空关键词:警报关联 可扩展性 NTar:基于网络拓扑的纠删码树型修复方法 被引量:3 2013年 大规模分布式容错存储系统采用纠删码作为数据冗余技术能够比多副本技术以更低的额外存储空间开销获得相同的数据可靠性.然而,基于纠删码的数据冗余技术在修复一个失效编码块时需要从其他节点下载多个编码块,不仅占用了大量网络资源,也严重降低了修复速度.现有的修复方法都没有考虑网络拓扑的影响.为此,提出并实现了一种基于网络拓扑的纠删码树型修复方法 NTar.NTar依据网络拓扑将参与修复的节点组织成网络距离最小的树型结构,缩短修复期间数据的传输距离,从而减少占用的网络资源并缩短修复时间.此外,提出了节点选择算法Optree.Optree可快速地从所有可用节点中选出最优的参与修复的节点组合,并同时生成最优的树型修复结构.实验结果表明,相比于传统的星型修复,NTar可将修复占用的网络资源降低30%~45%,修复时间减少50%~70%. 许方亮 王意洁 裴晓强关键词:分布式存储系统 网络拓扑 纠删码 数据修复 最小生成树 一种面向公有链的轻量级可扩展技术 被引量:7 2020年 区块链技术解决了在不可信环境下建立信任的基础难题,被视为继云计算、物联网和人工智能之后的又一项颠覆性技术.然而,目前公有链面临2大根本难题:1)较低的系统吞吐率无法满足大规模运用的需求;2)持续增长的账本和状态数据,对节点磁盘和内存容量提出了较高要求.已有的扩容技术往往只针对提升系统吞吐,忽略了区块链数据增长对节点存储资源消耗的严重问题.为此,提出了PocketChain,一种对存储友好的轻量级扩容技术,在不牺牲去中心化与安全性的前提下,实现高吞吐和低存储的特性.首先,针对数据增长问题,PocketChain采用无状态客户端设计,使用RSA累加器对状态进行压缩,使得验证节点只需存储区块头部信息,大大降低节点对磁盘和内存的需求.其次,PocketChain将无状态客户端运用于分片技术架构下,在提升系统吞吐的同时,克服分片周期性随机重组导致的状态迁移问题,从而能进一步提升分片重组频率,增加分片系统安全性.实验结果表明:该方法能够有效降低节点存储需求,并线性提升系统吞吐. 陈幻 王意洁GRC:一种适用于多节点失效的高容错低修复成本纠删码 被引量:6 2014年 作为云计算重要基础的大规模分布式容错存储系统,采用纠删码作为数据冗余技术能比多副本技术以更低的存储开销获得相同的数据可靠性.然而,过高的修复成本使纠删码技术在实际中的应用受到限制.已有的改进工作虽然可以降低成本,但在多节点失效修复的成本过高.提出一种适用于多节点失效的高容错低修复成本纠删码——分组修复码(group repairable codes,GRC).GRC码通过将条带分组并增加组编码块,显著减少了修复所要传输的数据量,从而节省了宝贵的网络带宽和磁盘I/O资源;GRC码通过多个组编码块在多节点失效时降低修复成本,且维持较好容错能力.根据GRC码的特征,提出基于贪心策略的解码算法(greedy strategy based decode algorithm,GSBD),GSBD通过保证每个失效块的修复成本最小以优化修复过程.实验结果显示,与RS码相比,GRC码将修复网络带宽和磁盘I/O分别降低50%~55%,修复速度提高75%~90%,仅需增加21%存储空间;与LRC码相比,GRC码将修复网络带宽和磁盘I/O分别降低35%~45%,修复速度提高40%~50%,仅需增加13%存储空间;与basic pyramid code(BPC)相比,GRC码将修复网络带宽和磁盘I/O降低15%~25%,修复速度提高20%~25%,仅需增加6%存储空间. 林轩 王意洁 裴晓强 许方亮 符永铨关键词:分布式存储系统 纠删码 数据修复 一种高效的不确定数据流并行Skyline查询处理方法 被引量:3 2013年 随着信息技术的不断发展,针对不确定数据流的应用和研究逐步引起学界的广泛关注.目前不确定数据流上Skyline查询的相关研究多关注于单机环境下的查询算法.当用户对查询响应速度要求较高或滑动的窗口规模较大时,基于单机环境进行集中处理的查询效率受到计算能力的限制,难以满足查询的实时性需求.当前诸如数据中心等分布式计算环境的兴起和广泛运用,为实现不确定数据流的分布并行Skyline查询处理提供了有利条件.对于高速到达的不确定数据流上的Skyline查询,当前研究的挑战在于如何充分利用分布式计算环境实现并行查询处理,以提高查询处理的效率.文中针对已有基于单机环境的集中式查询处理方法因计算能力不足而难以满足当前用户查询需求的问题,提出了一种针对不确定数据流的分布并行Skyline查询处理的两级并行查询模型TPM.实验表明基于TPM模型对不确定数据流进行分布并行Skyline查询处理的方式在不同滑动窗口规模、数据维度和并行节点数目的条件下,均具有良好的性能. 赵越 王意洁 王媛 李小勇关键词:不确定数据 数据流处理 SKYLINE查询 一种弹性可扩展的并行n-of-N Skyline查询处理算法 2015年 n-of-N Skyline查询关注于大小为N的滑动窗口上最近任意n(n≤N)个数据对象的Skyline查询结果,为用户的Skyline查询提供了高度的灵活性.在当前大数据的新环境下,数据流呈现出以下2个特征:1)数据流实时大规模高速到达;2)数据流工作负载的急剧变化性.这对n-of-N Skyline查询的实时性以及自适应扩展提出了更高的要求.而目前针对n-of-N Skyline查询相关的研究都是关注于单机环境下的集中式查询算法,难以同时满足当前新环境下查询的实时性与自适应扩展需求.为此,提出了一种弹性并行查询模型EPM,并且基于EPM模型提出了一种弹性可扩展的并行n-of-N Skyline查询算法(elastic parallel n-of-N Skylline,EPnNS).实验证明,该算法在并行节点数增加1倍时,查询效率提升接近70%,而且在应对不同程度的负载变化时,该算法具有较好的自适应调整性能. 魏炜 王意洁 王媛 马行空关键词:SKYLINE 数据流处理 基于生成矩阵变换的跨数据中心纠删码写入方法 被引量:6 2020年 近年来,为了避免数据因数据中心故障而永久丢失,各大机构开始尝试采用容错技术将数据存放在跨数据中心存储系统中.作为一种具有高容错性和低冗余度的容错技术,纠删码被广泛应用于单数据中心存储系统中.然而,在跨数据中心存储系统中,已有纠删码写入方法的网络资源消耗量大、编码效率低且传输效率低,这使得跨数据中心纠删码的写入速度难以适应于日益增长的数据生成速度.为提高跨数据中心纠删码的写入速度,提出了一种基于生成矩阵变换的跨数据中心纠删码写入方法(cross-datacenter erasure code writing method based on generator matrix transformation,CREW).通过对传输拓扑和生成矩阵进行优化,CREW可使写入过程中需要长距离传输的数据块尽可能地少,从而达到降低网络资源消耗量的目的.通过在数据中心间采用分布式的数据传输和数据编码、在各数据中心内部采用集中式的数据传输和数据编码,CREW可在编码效率和传输效率间取得较好权衡.在跨数据中心环境下的实验表明:与2种广泛使用的传统纠删码写入方法相比,CREW的写入速度提高了36.3%~57.9%;与现有的跨数据中心纠删码写入方法IncEncoding相比,CREW的写入速度提高了32.4%. 包涵 王意洁 许方亮关键词:纠删码 容错技术 运用警报关联的威胁行为检测技术综述 被引量:2 2017年 基于警报关联的网络威胁行为检测技术因其与网络上大量部署的安全产品耦合,且能充分挖掘异常事件之间的关联关系以提供场景还原证据,正成为复杂威胁行为检测的研究热点。从威胁行为和网络安全环境的特点出发,引出威胁行为检测的应用需求和分类,介绍基于警报关联的威胁行为检测的基本概念和系统模型;重点论述作为模型核心的警报关联方法,并分类介绍了各类典型算法的基本原理和特点,包括基于因果逻辑的方法、基于场景的方法、基于相似性的方法和基于数据挖掘的方法;并结合实例介绍了威胁行为检测系统的三种典型结构,即集中式结构、层次式结构和分布式结构;基于当前研究现状,提出了对未来研究趋势的一些认识。 王意洁 程力 马行空关键词:警报关联 分布式存储中的纠删码容错技术研究 被引量:55 2017年 大数据规模上体量大和增长速度快的特点对存储系统的性能和可扩展性提出了严峻挑战.使用普通商用服务器构建的分布式存储系统服务能力强、成本低廉且极易扩展,在大数据的存储管理中得到了极为广泛的应用.分布式存储系统庞大的节点数量导致节点失效情况频发,必须采用一定的容错技术来保证数据可靠性.常用的容错技术主要包括多副本技术和纠删码技术两种.与多副本容错技术相比,纠删码容错技术能够以低得多的存储开销提供相同甚至更高的数据可靠性.随着近年来数据规模的爆炸式增长,纠删码容错技术受到了业界的广泛关注.该文综述了分布式存储中纠删码容错技术的研究现状.首先,介绍了纠删码容错技术的基本原理和概念,指出了纠删码容错技术在大规模分布式存储中面临的主要技术挑战;然后,从编码实现、纠删码设计、数据修复和数据更新等方面阐述了分布式存储中纠删码容错技术的研究进展,重点研究分析了各项关键技术的特点和局限性,并依据主要评价指标对现有纠删码的编码性能和修复性能进行了对比和分析;最后,基于最新研究动态指出了分布式存储中纠删容错技术未来的研究方向,包括同步编码实现技术、低冗余再生码设计和数据失效预测技术等. 王意洁 许方亮 裴晓强关键词:分布式存储 纠删码 数据修复 数据更新 基于融合学习的无监督多维时间序列异常检测 被引量:3 2023年 随着多云时代的到来,云际智能运维能够提前检测处理云平台的故障,从而确保其高可用性.由于云系统的复杂性,运维数据在数据局部性和数据全局性上呈现出多样的时间依赖和维度间依赖,这给多维时间序列异常检测带来很大的挑战.然而,现有的多维时间序列异常检测方法大多是从正常时序数据中学习到特征表示并基于重构误差或预测误差检测异常,这些方法无法同时捕获多维时间序列在局部性和全局性上的信息依赖,从而导致异常检测效果差.针对上述问题,提出了一种基于融合学习的无监督多维时间序列异常检测方法,同时对多维时间序列的数据局部特征和数据全局特征进行建模,得到更加丰富的时序重构信息,并基于重构误差检测异常.具体地,通过在时域卷积网络中引入自注意力机制使得模型在构建局部关联性的同时更加关注数据全局特征,并在时域卷积模块和自注意力模块间加入信息共享机制实现信息融合,从而能够更好地对多维时序的正常模式进行重构.在多个多维时间序列真实数据集上的实验结果表明,相较于之前的多维时间序列异常检测,提出的方法在F1分数上提升了高达0.0882. 周小晖 王意洁 徐鸿祚 刘铭宇