崔晓晖
- 作品数:18 被引量:85H指数:6
- 供职机构:北京林业大学信息学院更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金黑龙江省自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学农业科学电气工程更多>>
- 提示学习研究综述
- 2024年
- 经过微调的预训练语言模型在各领域任务中均取得了显著的性能。但是,预训练和微调之间在训练数据和目标函数方面存在着巨大差距,阻碍了预训练语言模型对下游任务的有效适应。提示学习的提出缩小了预训练和微调之间的差距,并可以很好地应用到小样本甚至零样本场景中。提示学习的核心思想是将提示模板插入到原始输入中,将下游任务数据转化为自然语言的形式输入到预训练模型中,输出预测结果,然后通过语言表达器将输出映射到相应的标签。系统地梳理了当前提示学习的相关工作,根据提示学习的实现步骤,从提示模板和语言表达器构建两个阶段介绍该类方法的研究进展。将基于提示模板的方法细分为人工构建、自动构建、引入外部知识构建提示和思维提示方法4种;将基于语言表达器的方法细分为人工构建的表达器、基于搜索的表达器、软表达器和引入外部知识构建表达器的方法4种。总结了提示学习在自然语言处理、计算机视觉和多模态领域的主要应用,并对提示学习相关实验进行了分析。最后,概述了提示学习的现状和挑战,展望了提示学习的未来发展方向。
- 崔金满李冬梅田萱田萱杨宇崔晓晖
- 量子协同的二分图最大权完美匹配求解方法被引量:9
- 2014年
- 信息科学中许多组合优化问题可抽象为二分图最大权完美匹配问题.由于数据量的增长,经典算法难以平衡匹配问题求解效率和求解精度的矛盾.基于此,提出一种适用于求解通用最大权完美匹配的智能优化方法.该方法将原始的矩阵形式的匹配候选解转换成可被智能优化算法处理的演化基结构,通过子代选择和量子策略协同过程,自适应地从改进的离散粒子群策略以及模拟退火策略中选择适用于当前演化过程的有效策略,并在保持种群稳定进化的同时促使种群快速收敛.通过不同类型检验函数以及不同维度匹配矩阵的实验,结果表明:与其他方法相比,该方法在有限迭代次数内具有较高的收敛精度以及较快的收敛速度,体现出对经典问题以及高维匹配问题的适应能力.
- 印桂生崔晓晖董红斌董宇欣崔香
- 关键词:二分图完美匹配
- 面向服务匹配问题的协同演化算法被引量:4
- 2015年
- 服务匹配是服务发现的主要环节.目前,原子服务匹配过程主要存在服务匹配概念狭窄、匹配算法的时间复杂度较高及匹配方案的表示难以被智能优化算法处理等问题.针对上述问题,在原子服务匹配的基础上引入复合服务匹配、抽象复合服务匹配过程的适应度函数及约束条件,设计适用于智能优化算法处理的匹配方案的表示方法.同时,结合协同演化算法设计思路,提出基于粒子群和模拟退火的协同演化算法(PSO-SA),用以求解复合服务匹配.实验结果表明:与现有智能优化算法相比,PSO-SA可在有限迭代次数内获得精度较高的匹配结果,对不同维度的服务匹配问题具有较高的适应性,可用于提高服务发现结果的质量.
- 崔晓晖印桂生董红斌
- 关键词:粒子群优化模拟退火
- 改进型遗传算法在种子园无性系配置设计中的应用被引量:4
- 2018年
- 【目的】使用优化算法优化种子园无性系配置的设计方案,以保证种子园子代在具有较高的遗传增益的前提下维持丰富的遗传多样性,为高世代种子园的无性系配置设计提供参考。【方法】基于已有的内蒙古红花尔基樟子松国家良种基地的樟子松亲本为材料,采用SSR分子标记技术及其分析软件确定樟子松亲本之间的遗传距离,使用优化算法开展基于遗传距离的樟子松种子园无性系配置优化设计,并基于研究目标改进原有的优化方法,最后与传统的种子园无性系配置方案、其他优化方法得到的方案进行对比分析。【结果】使用本文改进的优化算法获得的种子园无性系配置方案优于传统的顺序错位以及其他方法的种子园配置方案,该方法能够使遗传距离较近的无性系在配置上保持最大距离,减少近亲交配机会,在一定程度上扩大了子代的遗传基础。【结论】当已知种子园无性系亲本间遗传距离时,可利用本文提出的基于传统遗传算法进行改进的多种群并行自适应的方法,即改进型自适应并行遗传算法,来实现基于遗传距离的种子园无性系优化配置。
- 王晴齐建东崔晓晖李伟
- 关键词:种子园遗传算法
- 基于OBE的软件估算技术教学改革
- 软件估算技术是电子信息类专业研究生的专业选修课程,基于OBE的教育理念,本文分析了目前课程教学中存在的问题,提出基于OBE的课程教学改革,介绍了课程大纲修订的情况,并结合课程特点,从教学内容、教学方法、教学手段等方面提出...
- 孟伟崔晓晖王春玲许福
- 关键词:教学改革
- 基于改进型果蝇算法的无性系种子园设计被引量:2
- 2018年
- 种子园的规划设计是林木育种的基础工作,在亲本数量不确定的前提下,最大限度避免种子园内无性系之间近交繁殖,保证种子园具有较高的遗传效益,是种子园设计的目标。以内蒙古红花尔基樟子松(Pinussylvestris var.mongolica)国家良种基地的1、1. 5、2代种子园樟子松无性系通过SSR等技术分析得到的不同亲本之间的遗传距离为数据支撑,考虑复杂的亲本关系,通过改进的智能优化算法进行种子园设计,并将最终结果与其他智能优化算法和传统算法的结果进行对比分析。结果表明:改进型果蝇算法的收敛速度和效果优于其他算法,由所有算法分别执行200次之后的对比结果中可见,其最大值低于其他算法的最小值。在完全随机算法设计方案中存在多处同一无性系分株相邻出现,遗传算法和改进型果蝇算法设计方案并无同一无性系分株作为近邻出现且改进型果蝇算法设计方案的优先交配优于遗传算法设计方案。结果表明,基于遗传距离处理亲本复杂的亲缘关系,采用智能优化算法进行方案配置,可以为高世代种子园设计提供参考。
- 齐建东刘春霞崔晓晖李伟
- 关键词:无性系
- 基于改进Sequence-to-Sequence模型的文本摘要生成方法被引量:13
- 2019年
- 基于循环神经网络和注意力机制的Sequence-to-Sequence模型神经网络方法在信息抽取和自动摘要生成方面发挥了重要作用。然而,该方法不能充分利用文本的语言特征信息,且生成结果中存在未登录词问题,从而影响文本摘要的准确性和可读性。为此,利用文本语言特征改善输入的特性,同时引入拷贝机制缓解摘要生成过程未登录词问题。在此基础上,提出基于Sequence-to-Sequence模型的新方法 Copy-Generator模型,以提升文本摘要生成效果。采用中文摘要数据集LCSTS为数据源进行实验,结果表明所提方法能够有效地提高生成摘要的准确率,可应用于自动文本摘要提取任务。
- 周健田萱崔晓晖
- 关键词:文本摘要语言特征
- 面向实践创新能力培养的数据库实验设计被引量:6
- 2015年
- 针对数据库教学中学生理论能力与实践能力发展不匹配的问题,分析产生该问题的根源,提出实验教学改革的依据和原则,设计满足改革依据的实验主体案例——精简推荐系统,围绕该案例建立实验任务的规划方案。
- 崔晓晖陈志泊韩慧
- 关键词:数据库实验教学推荐系统
- 基于Spark框架XGBoost的林业文本并行分类方法研究被引量:11
- 2019年
- 针对当前“互联网+”技术与林业的交叉融合,涌现出海量待挖掘的涉林文本,而林业文本分类的相关研究尚不成熟的问题,使用网络爬虫技术面向互联网采集涉林文本,基于丰富的语料重新构建分类标签,提出基于Spark计算框架的XGBoost并行化方法,对林业文本进行分类。经由交叉验证,构建的XGBoost并行分类算法准确率为0.9234,在各类别中最低F1为0.8604,最高为0.9984;其在2.1万条、4.2万条、8.4万条数据集上的训练加速比分别为2.13、3.47、3.82。结果表明,基于该标签设定的分类模型对现存互联网中涉林文本的适应性较好;Spark环境下实现的XGBoost并行化算法的准确率显著优于其他4种机器学习(朴素贝叶斯、GBDT决策树、BP神经网络和ELM神经网络算法)的并行化算法,算法执行效率远高于单机版本,且数据量越大,其加速比越高,能有效应对海量林业文本的实时、准确分类。
- 崔晓晖师栋瑜陈志泊许福
- 关键词:文本分类SPARK
- 基于TextRank和簇过滤的林业文本关键信息抽取研究被引量:15
- 2020年
- 目前,获取林业文本关键信息存在2个问题:关键信息获取主要从关键词角度考虑,忽略了词语的信息类型;网络上的林业文本没有统一的记述结构,词语信息类型提取困难。为此,本文提出了基于改进TextRank和簇过滤的林业文本关键信息抽取方法,以“关键词+信息类型”两部分表示文本关键信息。首先,抽取关键词并进行Word2Vec向量化,然后通过构建融合词语特征值、边权值的图模型对TextRank进行改进,对经迭代收敛得到的稳定图进行归并聚类形成簇;然后,设计簇品质评价公式进行簇过滤,再次应用TextRank形成最终簇集合;最后,对簇进行信息类型标注。对于测试文本,通过比较关键词向量和簇心向量的距离获得词语的信息类型,将信息类型与关键词结合得到文本的关键信息。基于2000篇与林业政策新闻相关的林业文本进行实验,最终簇集合的紧密度为0.9680,间隔度为0.0572,综合评价指标为0.8871;对其中400篇文本进行关键词人工标注,将本文关键词抽取方法与TextRank、TF IDF等6种算法进行比较,结果表明,本文方法在MRR、Bpref、准确率和综合评价指标上均获得了较好的效果,说明本文方法在提取林业文本关键词方面具有优势。
- 陈志泊李钰曼许福冯国明师栋瑜崔晓晖
- 关键词:关键词抽取信息类型