邢凯 作品数:16 被引量:33 H指数:4 供职机构: 中国科学技术大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 国家教育部博士点基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
基于Erasure code的实时流媒体传输系统 被引量:1 2017年 传统的流媒体传输系统需要一定规模的服务器群和集中式的带宽,在丢包问题中大部分采用丢包重传,即带ACK回执和重传的数据报文。提出一种新的容忍丢包和边缘服务器的传输方式,基于Erasure code的可恢复性,实现容忍丢包的发送接收模型。采用边缘计算的思想,将集中式的服务器群分散到任意主机上,通过动态地获取服务端地址,将实时数据流分成多块,经由不连续的边缘服务器进行转发,以降低对边缘服务器的带宽要求。可以根据边缘服务器的服务能力的不同分配传输数据量,达到动态的负载均衡。同时该系统具备隐私保护的功能。实验结果表明,该系统即使在较高丢包率和较差的网络环境下,仍然可以保证较低延迟的正常使用。 王俊博 邢凯关键词:ERASURE CODE 网络 流媒体 数据库驱动认知无线电网络位置隐私的攻击与保护 被引量:2 2014年 针对数据库驱动认知无线电网络(cognitive radio networks)存在的位置隐私泄露风险,提出两种攻击方法:覆盖交集攻击和频道切换攻击,可根据二级用户(secondary user,SU)频道使用情况,在不直接获取查询信息中的位置信息的前提下,间接推断SU位置。为应对上述攻击,提出查询信息盲化机制来实现隐私保护的频谱查询,同时对频道选择方案进行优化使得SU能够最大程度地保护自身位置隐私。根据真实数据进行的攻击实验提高了对SU的定位精度,基于模拟数据的隐私保护方案验证实验证明了本文提出的保护方案的有效性和效率。 张龙 高昭瑜 朱浩瑾 邢凯关键词:认知无线电网络 数据库驱动 位置隐私 隐私保护 基于信息关联拓扑的互联网社交关系挖掘 被引量:3 2016年 针对目前基于监督学习的关系抽取方法需要标注大量训练数据和预先定义关系类型,提出了一种基于词语共现信息构建关联网络并在关联网络上进行图聚类分析的人物关系提取方法。首先,从新闻标题数据获得关联度较高的500个人物对用于关系抽取研究;然后,抓取关联人物对所在新闻数据,对其进行预处理,并利用词频—逆向文档频率(TF-IDF)得到人物对共现句子中的关键词;其次,基于词语共现信息得到词语之间的关联,进而建立关键词关联网络;最后,利用对关联网络进行图聚类分析以获得人物关系。在关系抽取的实验中,与传统基于词语共现和模式匹配的中文实体关系提取方法相比,所提方法在准确率、召回率和平衡F分数(F-score)上分别提升了5.5,3.7和4.4个百分点。实验结果表明,所提算法能够在没有标注训练数据的条件下,有效地从新闻数据中抽取丰富且高质量的人物关系数据。 刘锦文 邢凯 芮伟康 张利萍 周慧关键词:关联网络 一种基于时不变稳定性和夏普比率的模型泛化能力优化方法 被引量:3 2022年 近年来随着数据规模和算力水平的提高,深度学习及相关预训练模型如ResNet等在图像识别领域取得了较快进展,其在多类应用场景的指定任务上均取得了良好表现.然而如何提高深度学习模型如ResNet等预训练模型的泛化能力,仍然是图像识别领域亟需解决的关键问题.目前通常的做法是通过网络结构的优化,或是数据集的扩充来改善模型性能,然而这些方法往往依赖于大量数据和大量时间/算力的网络结构修剪和二次训练,模型训练效率和泛化性能的优化受制于数据规模和网络结构的复杂度.针对这一挑战,我们提出了一种基于深度网络时不变稳定性的深度学习模型泛化能力优化方法,从数据分布角度出发,对深度学习预训练模型进行结构化分析,随后针对非稳定子结构进行选择性裁剪而非随机dropout来实现网络结构定向修剪,然后基于夏普比率对模型中间输出的分布进行收益分析和组合优化,生成具有弱/去相关性的有效特征,并利用自注意力机制对这些特征进行自适应加权处理,进而生成具有较好泛化能力的改进模型.理论分析及实验都表明,本方法大幅降低了模型泛化优化过程中对于训练集规模和算力的要求,从原模型训练过程中每类需要1000余张训练图片到只需要20张,大幅提高了训练效率.针对ImageNet 2012动物类数据集的泛化性能分析表明,本方法将ResNet的准确率从80.15%提高到了86.72%,并且对数据集外部分未知动物类别的感知能力也有明显提升. 邓洪武 邢凯 王志勇 李亚鸣 胡璇关键词:协方差矩阵 夏普比率 基于小样本无梯度学习的卷积结构预训练模型性能优化方法 被引量:1 2022年 针对卷积结构的深度学习模型在小样本学习场景中泛化性能较差的问题,以AlexNet和ResNet为例,提出一种基于小样本无梯度学习的卷积结构预训练模型的性能优化方法。首先基于因果干预对样本数据进行调制,由非时序数据生成序列数据,并基于协整检验从数据分布平稳性的角度对预训练模型进行定向修剪;然后基于资本资产定价模型(CAPM)以及最优传输理论,在预训练模型中间输出过程中进行无需梯度传播的正向学习并构建一种全新的结构,从而生成在分布空间中具有明确类间区分性的表征向量;最后基于自注意力机制对生成的有效特征进行自适应加权处理,并在全连接层对特征进行聚合,从而生成具有弱相关性的embedding向量。实验结果表明所提出的方法能够使AlexNet和ResNet卷积结构预训练模型在ImageNet 2012数据集的100类图片上的Top-1准确率分别从58.82%、78.51%提升到68.50%、85.72%,可见所提方法能够基于小样本训练数据有效提高卷积结构预训练模型的性能。 李亚鸣 邢凯 邓洪武 王志勇 胡璇关键词:资本资产定价模型 基于超越数论的无线传感器网络时空编码方法 2023年 在无线传感器网络(WSN)规模逐渐增大与传感器逐渐微型化的背景下,全局信息收集的持续性和实时性的要求与无线传感节点受限能力之间的矛盾日益严峻。传统方法使用压缩、融合、聚合等方式降低数据传输量,并通过优化路由增加网络能力,但越来越难以应对上述挑战。为此,考虑利用计算能力克服存储、传输瓶颈,通过本地化计算范式实现全局信息的感知,并基于超越数论和非定域感知方法,提出一种面向大规模分布式WSN的信息存算与通信一体化方法。通过对网络进行建模,将网络每时每刻产生的信息以去中心化本地计算的方式融合到常数量级的可计算编码中。该方法通过节点邻居之间周期性地交换搭载时空编码的Beacon消息。根据时空编码在相空间中构造具有确定性和因果性的相空间轨迹来存储和交换信息,避免直接存储和传输庞大的原始数据,从而降低计算、通信、存储等开销。实验结果表明,该方法能够实现O(1)的存储和通信开销,具有毫秒级的收敛速率,相较现有WSN存储方法,在通信开销方面具有明显优势。 胡宗升 邢凯 许静关键词:低延迟 高可用 一种面向数据可用性和存储可靠性动态要求的自适应纠删码存储策略设计 被引量:4 2021年 为了满足指数级增长的大数据存储需求,现代的分布式存储系统需要提供大容量的存储空间以及快速的存储服务.因此在主流的分布式存储系统中,均应用了纠删码技术以节约数据中心的磁盘成本,保证数据的可靠性,并且满足应用程序和客户端的快速存储需求.在实际应用中数据往往重要程度并不相同,对数据可用性要求不一,且不同磁盘的故障率和可靠性动态不一的特点,对于传统RAID存储方式包括基于纠删码的存储系统提出了新的挑战.本文提出了一种面向数据可用性和磁盘可靠性动态要求的灵活自适应纠删码存储设计On-demand ARECS(On-demand Availability and Reliability Oriented Adaptive Erasure Coded Storage System),根据存储后端数据可用性和磁盘可靠性的多个维度进行设计,综合确定纠删码编码策略和存储节点选择,从而减少存储冗余度和存储延迟,同时提高数据可用性和存储可靠性.我们在Tahoe-LAFS开源分布式文件系统中进行了实验,实验结果验证了我们的理论分析,在保证具有多样性要求的数据可用性和磁盘可靠性的前提下,明显减少了数据冗余度和存储延迟. 李子天 邢凯 龚海华关键词:分布式文件系统 纠删码 数据可用性 基于统计因果性及最优传输的文本分类模型 被引量:1 2023年 近年来随着数据规模和算力水平的提高,深度学习及相关预训练模型如CNN、BERT等在文本分类领域取得了较快的进展。但这些模型仍然有提取分布特征能力不强、泛化性能较差等问题。目前针对这一问题,常见的做法是改进模型的结构或者扩充训练的数据集来改善性能,然而这些方法依赖于大量数据集和大量算力的网络结构修剪。因此提出一种基于格兰杰因果关系检验和最优传输理论的深度学习预训练模型优化方法。从数据分布角度出发,生成深度学习预训练模型中能够稳定提取分布信息的特征通路结构。在此基础上,基于最优传输距离给出特征通路结构的最优组合,生成在统计分布上具有稳定性的多视角结构化表征。理论分析和实验结果表明,该方法大幅降低了模型优化过程中数据和算力的要求。对比基于卷积结构的预训练模型如CNN,在20ng news、Ohsumed、R8数据集上分别有5、7和2个百分点的提升,对比基于Transformer结构的预训练模型如BERT分别有2、3和2个百分点的提升。 聂挺 邢凯 李静娟关键词:文本分类 格兰杰因果关系检验 一种基于数据分布驱动的小样本无梯度学习的情感分类方法 2024年 阐述一种基于数据分布驱动的小样本正向无梯度学习方法。该方法基于最优传输理论和格兰杰因果关系,在数据分布空间连续映射过程中,设计能稳定提取有效信息的特征通道,并运用资本资产定价理论,生成全局的高维最优收益结构表征,进而利用多头注意力机制生成情感分类模型。将该方法应用于情感分类问题,在该领域的通用英文数据集上,可将BERT模型的准确率提升7.07%,在中文数据集上可将其提升2.23%。将该方法应用于当前达到SOTA性能的情感分类模型LCF-ATEPC上,准确率平均提升0.6%左右。 李宛蓉 邢凯关键词:计算机技术 情感分类 资本资产定价理论 基于因果干预与不变性的卷积预训练模型优化研究 2022年 基于卷积神经网络(CNN)的深度模型在图像识别与分类领域应用广泛,但在全局特征控制、概念层次特征不变性提取和变量之间的因果关系确定方面仍存在不足,使得深度模型缺乏灵活性、适应性及泛化性。基于因果干预和不变性,提出一种基于CNN深度模型的定向修剪和网络结构优化方法。通过对模型输入进行基于不变性的干预调制,根据生成的调制图片序列分析预训练网络卷积子结构的输出分布,筛选和定向修剪噪声敏感子结构。构建基于类间区分度的目标函数,借助经济学领域中的资本资产定价模型构建网络的层间连接,生成在单分类任务下能增大类间区分度的网络拓扑结构,逐层优化构建概念层次的稳定特征。在ImageNet-2012数据集上的实验结果表明,优化后的深度模型相比于ResNet50基线预训练模型的分类准确率约提升了5个百分点,并大幅降低了训练集规模。 胡璇 邢凯 李亚鸣 王志勇 邓洪武关键词:卷积神经网络 不变性 资本资产定价模型