张建朋 作品数:18 被引量:82 H指数:4 供职机构: 国家数字交换系统工程技术研究中心 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 中国博士后科学基金 更多>> 相关领域: 自动化与计算机技术 理学 更多>>
嵌套命名实体识别研究进展 被引量:12 2021年 嵌套命名实体之间蕴含着丰富的语义关系与结构信息,对于关系抽取、事件抽取等下游任务的执行至关重要。近年来,深度学习技术由于能够获取文本中更为丰富的表征信息,在文本信息抽取模型的精确度上已经逐渐超过了传统基于规则的方法,因此许多学者开展了基于深度学习的嵌套命名实体识别技术研究,并获得了目前最先进的性能。对现有的嵌套命名实体识别技术进行了全面的综述,介绍了嵌套命名实体识别最具代表性的方法及最新应用技术,并对未来面临的挑战和发展方向进行了探讨和展望。 余诗媛 郭淑明 黄瑞阳 张建朋 苏珂关键词:超图 命名实体识别 基于仿射聚类的主动SVM多类分类方法 2012年 针对现有的主动学习算法在多分类器应用中存在准确率低、速度慢等问题,将基于仿射传播(AP)聚类的主动学习算法引入到多分类支持向量机中,每次迭代主动选择最有利于改善多类SVM分类器性能的N个新样本点添加到训练样本点中进行学习,使得在花费较小标注代价情况下,能够获得较高的分类性能。在多个不同数据集上的实验结果表明,新方法能够有效地减少分类器训练时所需的人工标注样本点的数量,并获得较高的准确率和较好的鲁棒性。 张建朋 陈福才关键词:仿射传播聚类 多分类支持向量机 主动学习算法 一种动态字词信息融合的中文命名实体识别方法 2022年 命名实体识别(Name Entity Recognition,NER)是文本信息抽取的关键步骤之一。近年来,结合词汇信息与字符信息的命名实体识别方法表现优异,引起了众多学者的广泛注意。然而目前的字词融合策略还存在可迁移性差、词汇信息遗失、难以明确词汇边界信息等问题。基于此,提出一种动态字词信息融合的中文命名实体识别方法,首先利用多头自注意力机制动态融合对应位置的词汇信息与字符信息形成词汇集合信息,其次动态融合词汇集合信息确定对应的词汇边界,利用词汇向量优化字符向量表示,最后利用BiLSTM-CRF完成序列解码识别命名实体。实验证明,在MSRA、ONTO、WEIBO等3个公开数据集上,中文命名实体识别方法较之字粒度的命名实体识别方法性能大幅提升,同时可与BERT等预训练模型有效结合,具有良好的可迁移性、可完整而动态的融合词汇信息与字符信息提升命名实体识别性能。 胡楠 黄瑞阳 张建朋 余诗媛 苏珂关键词:信息抽取 命名实体识别 融合机器阅读理解的知识图谱问答系统设计与实现 被引量:3 2021年 智能问答系统是信息检索的一种新型检索模式。针对现有知识图谱问答系统存在的开放域知识覆盖不全而影响问答质量的问题,提出了一种融合机器阅读理解的知识图谱问答系统构建方法。首先采用Elasticsearch数据库来存储预处理之后的三元组数据,其次利用信息检索技术在知识图谱中对问题相关知识进行检索,并将检索结果拼接成一段自然语言描述,采用XLNet模型进行答案抽取匹配,最后在2019年度第二届中国“AI+”创新创业大赛-自然语言处理技术创新大赛的数据集上进行了实验,其F1值能够达到0.23的指标。实验证明,融合机器阅读理解模型的知识图谱系统在复杂的开放域中文问答任务具有更好的表现能力。 王天彬 黄瑞阳 张建朋 苏珂 汪浣沙关键词:自然语言处理 问答系统 知识图谱 基于密度峰值搜索的改进流形聚类算法 被引量:1 2016年 对复杂流形结构数据集进行聚类的难点是难以度量复杂流形结构的相似度并确定聚类中心个数。为解决这一难题,提出一种基于流形距离的度量方法,判断样本点间的近邻关系。综合考虑数据集全局和局部的空间流形分布,定义各样本点的局部密度;根据各样本点局部密度大小及其与其它样本点局部密度的关系,定义聚类中心判别准则;基于分级的示例判决策略实现对聚类中心数的自动确定和聚类中心的自动选择。实验结果表明,对于存在具有流形结构的数据集,该方法相对于已有算法能够有效提高聚类精度。 刘艳丽 张建朋关键词:流形距离 聚类中心 基于密度与近邻传播的数据流聚类算法 被引量:28 2014年 针对现有算法聚类精度不高、处理离群点能力较差以及不能实时检测数据流变化的缺陷,提出一种基于密度与近邻传播融合的数据流聚类算法.该算法采用在线/离线两阶段处理框架,通过引入微簇衰减密度来精确反映数据流的演化信息,并采用在线动态维护和删减微簇机制,使算法模型更符合原始数据流的内在特性.同时,当模型中检测到新的类模式出现时,采用一种改进的加权近邻传播聚类(Weighted and hierarchical affinity propagation,WAP)算法对模型进行重建,因而能够实时检测到数据流的变化,并能给出任意时间的聚类结果.在真实数据集和人工数据集上的实验表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较好的聚类效果. 张建朋 陈福才 李邵梅 刘力雄关键词:数据流挖掘 基于密度聚类 变化检测 基于稀疏编码直方图的TSM识别场景文本算法 被引量:3 2016年 基于部件的树结构模型(TSM)使用的底层特征梯度直方图(HOG)对文字特征表达性不强,且降维时易造成信息丢失。针对该问题,构建以稀疏编码直方图(HSC)为底层特征的基于部件的树结构模型(HSC-TSM)识别场景文本。将K-SVD学习字典用于计算稀疏编码,逐像素地将稀疏编码聚合成HSC,描述文字的局部外观信息;通过奇异值分解对HSC进行降维,避免信息丢失。HSC-TSM在数据集ICDAR 2003上对各类文字的识别率比TSM高3.08%-10.28%,在数据集ICDAR 2003和SVT上的单词识别率分别提升了5.30%和3.62%。 肖诚求 吉立新 朱俊光 张建朋 王亚文关键词:奇异值分解 一种面向未知攻击检测的深度神经网络预处理方法 被引量:2 2021年 现有的基于深度神经网络(Deep Neural Network,DNN)的检测方法对于未知攻击检测性能不佳。原因之一是现有的预处理方法并未考虑网络环境的内在特征。为解决该问题,首先提出一种新型的预处理方法,将训练集的统计特征作为网络环境的内在特征,用于测试集和检测集的预处理,以提高检测算法的性能;然后利用DNN模型进行入侵检测。对KDDCup’99、NSL-KDD和UNSW-NB15数据集的实验结果表明,与传统预处理方法相比,所提预处理方法在准确率方面表现更好,召回率也有一定程度提升。 陈鹏 郭云飞 张建朋 王亚文 扈红超关键词:入侵检测 预处理 归一化 基于因子图模型的动态图半监督聚类算法 被引量:8 2020年 针对动态图的聚类主要存在着两点不足:首先,现有的经典聚类算法大多从静态图分析的角度出发,无法对真实网络图持续演化的特性进行有效建模,亟待对动态图的聚类算法展开研究,通过对不同时刻图快照的聚类结构进行分析进而掌握图的动态演化情况.其次,真实网络中可以预先获取图中部分节点的聚类标签,如何将这些先验信息融入到动态图的聚类结构划分中,从而向图中的未标记节点分配聚类标签也是本文需要解决的问题.为此,本文提出进化因子图模型(Evolution factor graph model,EFGM)用于解决动态图节点的半监督聚类问题,所提EFGM不仅可以捕获动态图的节点属性和边邻接属性,还可以捕获节点的时间快照信息.本文对真实数据集进行实验验证,实验结果表明EFGM算法将动态图与先验信息融合到一个统一的进化因子图框架中,既使得聚类结果满足先验知识,又契合动态图的整体演化规律,有效验证了本文方法的有效性. 张建朋 裴雨龙 刘聪 李邵梅 刘聪关键词:半监督聚类 特征提取 动态图 多跳机器阅读理解研究进展 被引量:4 2021年 与常规的单跳机器阅读理解相比,多跳机器阅读理解(MHMRC)需要在多个相关文档段落中进行多跳推理以实现对复杂问题的理解和回答,其更接近于人类的语言推理能力,具有广阔的应用前景但也极具挑战性。阐述MHMRC的研究背景,将现有方法根据适用场景分为封闭集合问答和开放域问答两类,主要包括基于问题分解的方法、基于图神经网络的方法、改进检索的方法、基于推理路径的方法等,分别从模型架构、特点、优劣等方面进行分析。介绍用于多跳推理的非结构化文本数据集和评测指标,对比各模型的性能表现。在此基础上,分析目前MHMRC研究的热点与难点,指出未来发展方向。 苏珂 黄瑞阳 黄瑞阳 张建朋 胡楠