高凯
- 作品数:29 被引量:108H指数:6
- 供职机构:河北科技大学信息科学与工程学院更多>>
- 发文基金:河北省自然科学基金国家自然科学基金河北省高等学校科学技术研究指导项目更多>>
- 相关领域:自动化与计算机技术文化科学经济管理电子电信更多>>
- 基于Carrot2聚类的垂直搜索引擎的研究与实现被引量:5
- 2012年
- 给出了一个基于Nutch的垂直搜索引擎系统的实现,主要探讨了基于Lucene和Carrot2的信息检索与聚类的实现,并对分词、垂直信息采集等的实现进行了说明。
- 高凯阳春辉陶秋红张洋杨军伟
- 关键词:搜索引擎LUCENENUTCH分词聚类
- 融合词汇特征的生成式摘要模型被引量:7
- 2019年
- 生成过程中利用词汇特征(包含n-gram和词性信息)识别更多重点词汇内容,进一步提高摘要生成质量,提出了一种基于sequence-to-sequence(Seq2Seq)结构和attention机制的、融合了词汇特征的生成式摘要算法。算法的输入层将词性向量与词向量合并后作为编码器层的输入,编码器层由双向LSTM组成,上下文向量由编码器的输出和卷积神经网络提取的词汇特征向量构成。模型中的卷积神经网络层控制词汇信息,双向LSTM控制句子信息,解码器层使用单向LSTM为上下文向量解码并生成摘要。实验结果显示,在公开数据集和自采数据集上,融合词汇特征的摘要生成模型性能优于对比模型,在公开数据集上的ROUGE-1,ROUGE-2,ROUGE-L分数分别提升了0.024,0.033,0.030。因此,摘要的生成不仅与文章的语义、主题等特征相关,也与词汇特征相关,所提出的模型在融合关键信息的生成式摘要研究中具有一定的参考价值。
- 江跃华丁磊李娇娥杜皓晅高凯
- 关键词:自然语言处理文本摘要CNN
- 基于多任务学习的多模态命名实体识别方法被引量:1
- 2023年
- 针对传统多模态命名实体识别方法无法有效融合图文模态信息且不能区分易混淆实体等问题,提出一种基于多任务学习的多模态命名实体识别方法,通过对比融合辅助任务促进图文模态信息的融合,通过实体聚类辅助任务提升模型对易混淆实体的判断能力。利用BERT预训练语言模型和ResNet模型分别对原始文本和图片进行特征映射获得相应的特征向量,并利用跨模态Transformer结构融合图文模态信息。在多模态命名实体识别任务基础上,增加对比融合辅助任务促进图文模态信息融合,增加实体聚类辅助任务学习实体类别之间的差异,提升模型对易混淆实体的区分能力。最后,利用条件随机场层学习上下文转移概率,并输出最优预测结果。实验结果显示,在国际公开数据集Twitter-2017上,所提方法相较于基线方法取得了更高的准确率、召回率和F1值,其中F1值可达85.59%,表明对比融合辅助任务和实体聚类辅助任务能够促进模型对实体的识别效果。
- 李晓腾张盼盼勾智楠高凯
- 关键词:命名实体识别多任务学习聚类
- 一种MIDI音乐生成方法、装置及终端设备
- 本发明适用于计算机技术领域,提供了一种MIDI音乐生成方法、装置及终端设备,该方法包括:对原始MIDI音乐数据进行预处理,得到音符轨道和和弦轨道;基于音符轨道和和弦轨道得到MCST元素和和弦元素;基于MCST元素和和弦元...
- 高凯刘一贺周二亮
- 基于情感判定的多轮对话生成方法、装置及终端设备
- 本申请适用于人机对话技术领域,提供了基于情感判定的多轮对话生成方法、装置及终端设备,该方法包括:获取对话信息;通过情感分类器识别对话信息中的第一情感信息,其中,情感分类器基于分类模型对对话信息包含的情绪进行识别和分类,第...
- 高凯勾智楠周二亮赵天龙董超
- 基于微博的情感倾向性分析方法研究被引量:4
- 2015年
- 随着微博等新型社会网络媒体的发展,人们在网络上传播着对各类话题的情感,社会网络也因此成为了挖掘社情民意的有效平台。传统文本分析算法难以适应篇幅短小、内容琐碎且富含情感特征的微博等短文本挖掘的需要。该文提出基于情感单元和评价对象分析的微博情感倾向性分析方法,通过基于词性共现概率计算的情感单元和情感评价对象抽取,计算情感单元的情感度,建立博主个性化及情感倾向性分析模型,完成情感倾向性分析。实验结果及分析验证了上述算法的有效性。
- 高凯李思雨阮冬茹刘邵博周二亮乔世权
- 关键词:社会网络
- 我国教育大数据技术及规范发展的进程、问题、对策探究
- 2023年
- 文章采用内容分析法,从教育大数据的采集、分析、管护技术及规范等方面进行系统的分析和归纳,研究发现当前我国教育大数据存在数据采集过程困难、非结构化数据存储难,关键分析技术滞后、大规模数据输出有限,数据管护体系有待完善、专业技能培训不足,缺乏统一规范、法律法规制定有待细化等问题。鉴于此,建议建立综合性采集机制、开发多样化技术设施设备和新型数据库技术,加强Hadoop等分析平台相关核心技术的使用和掌握、引进专业化的大规模数据处理技术,建立分级管理体系、涵盖国家、学校和机构等层级,加强数据管护技能培训、培养专业化人才,建立统一标准体系、细化信息保护方面的法律法规等对策,为我国教育大数据的研究和实践提供参考和借鉴。
- 张志新孟歌高凯
- 关键词:数据采集数据分析
- 分类算法在范例推理中的研究与应用
- 2012年
- 将范例推理中的范例初步匹配看作文本分类的特殊情形,提出基于类别中心向量的分类算法。通过确定待处理案例的归属类别,缩小范例检索范围,减少在范例精确匹配阶段的计算量,提高案例初步匹配的准确性。在此基础上,将上述算法应用在对交通事故案例的处理与交通信息预警系统中。实验与使用表明,该算法能较为准确地判断事故类型并给出相应的预警信息。
- 刘连喜邢彤徐浩王伟高凯
- 关键词:人工智能自然语言处理信息检索
- 基于在线迁移学习的重现概念漂移数据流分类被引量:14
- 2016年
- 随着大数据时代的到来,数据流分类被应用于诸多领域,如:垃圾邮件过滤、市场预测及天气预报等.重现概念是这些应用领域的重要特点之一.针对重现概念的学习与分类问题中的"负迁移"和概念漂移检测的滞后性,提出了一种基于在线迁移学习的重现概念漂移数据流分类算法——RC-OTL.RC-OTL在检测到概念漂移时存储刚学习的一个基分类器,然后计算最近的样本与存储的各历史分类器之间的领域相似度,以选择最适合对后续样本进行学习的源分类器,从而改善从源领域到目标领域的知识迁移.另外,RC-OTL还在概念漂移检测之前根据分类准确率选择合适的分类器对后续样本分类.初步的理论分析解释了RC-OTL为什么能有效克服"负迁移",实验结果进一步表明:RC-OTL的确能有效提高分类准确率,并且在遭遇概念漂移后能更快地适应后续样本.
- 文益民唐诗淇冯超高凯
- 关键词:概念漂移负迁移
- 开放关系抽取方法、设备及存储介质
- 本发明提供了一种开放关系抽取方法、设备及存储介质,其首先获取开放域文本中的关系实例,然后根据预训练的编码器对无标签数据进行编码,得到无标签数据对应的关系表示,同时对无标签数据对应的关系表示进行聚类,得到伪标签数据,最后根...
- 高凯赵康仇元喆周二亮勾智楠董超