徐博
- 作品数:29 被引量:165H指数:7
- 供职机构:大连理工大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金辽宁省自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于不同信息资源专利查询扩展方法的研究被引量:6
- 2016年
- 近年来查询扩展方法已被证明能有效地提升专利检索的平均性能,而大多数查询扩展方法仅使用实验数据集进行扩展词选择,很少有研究将外部信息源利用于专利检索,提高检索准确率。因此,本文在实验数据集基础上,同时采用一种利用外部资源的方法提升专利检索性能。该方法利用谷歌搜索引擎优化查询扩展方法的性能,并采用排序学习方法LambdaMART方法融合不同查询扩展方法,对信息源中的不同文本域进行加权处理,从而提升专利检索性能。在TREC数据集上的实验结果表明,基于本文所采用的信息资源进行查询重构的方法有效地提升了专利检索的性能。
- 许侃林原林鸿飞徐博
- 关键词:信息检索查询扩展
- 融合文本摘要和情绪感知的抑郁倾向识别
- 2024年
- 抑郁症作为世界第四大疾病,严重影响着人们的生理和心理健康。随着互联网的发展,社交媒体的发布内容已经成为研究精神疾病的重要数据源,研究者开始应用自然语言处理技术自动检测抑郁倾向。现存算法无法充分捕捉到长文本中的关键信息,忽略了对用户情绪状态的时序性建模,进而造成抑郁倾向识别性能不佳。该文提出一种融合文本摘要和情绪感知的抑郁倾向识别模型,首先利用文本摘要算法抽取用户历史文本的全局语义特征,在压缩文本长度的同时保留了与用户真实意图强相关的内容;然后利用词汇增强算法计算句子级的细粒度情绪表示,并结合深度神经网络捕获了用户的情绪变化特征。实验结果表明,该文提出的模型取得了更佳的识别效果,在抑郁倾向识别数据集上将检测结果的正类F 1值提升至75.61%。
- 季浩然林鸿飞杨亮徐博
- 关键词:自然语言处理文本摘要
- 基于示例语义的音乐检索模型被引量:1
- 2017年
- 基于语义描述的音乐检索是根据音乐所表达的语义和对音乐的主观感受,查找或发现音乐的一种方式。一个典型的基于语义描述的检索(query by semantic description,QBSD)系统被定义为有监督的多类别标记(supervised multi-class labeling,SML)模型,通过使用语义相关标签来标记未知,将音乐映射到一个"语义空间",从而克服语义鸿沟问题。在SML模型基础上,提出将示例音乐作为检索条件,通过对音乐语义的标注将检索示例映射到语义空间,然后在标记后的数据库中,返回语义相似的音乐。并且采用深度学习算法,设计了多类别标记模型。实验表明该模型能够满足用户基于语义音乐检索的基本需要。
- 秦静林鸿飞徐博
- 关键词:卷积神经网络音乐检索
- 基于似然损失函数的组样本排序学习方法被引量:1
- 2017年
- 组样本用于模型训练,为排序学习方法的构造提供一种新的思路.文中改进已有的组样本排序学习方法,构造组样本损失函数,用于排序学习模型的训练.基于似然损失函数,采用样本偏序权重损失函数和最优初始序列选择方法,构造基于神经网络的组排序学习方法,实验证明文中方法能够有效提高排序准确率.
- 林原徐博孙晓玲林鸿飞许侃
- 关键词:信息检索
- 基于检索结果融合机制的对话生成模型被引量:1
- 2021年
- 对话生成模型是对话系统中十分重要的组件。传统的对话生成模型仅利用用户的输入信息生成回复,这导致在生成过程中常会出现无意义的万能回复。最近有工作尝试将检索的方法融入生成模型从而提高模型的生成质量,但这些方法往往将重点放在如何编辑检索结果上,没有考虑检索结果与用户查询之间的语义空间差别。为解决这一问题,该文提出了基于检索结果融合的对话生成模型。模型首先利用双向长短时记忆网络对检索结果进行编码,并提出了具有融合机制的长短时记忆网络(fusion-LSTM)。该机制将检索结果在模型内部与对话文本相结合,以更好地将检索到的信息融入到生成模型中。实验结果表明,该方法在自动评价指标和人工评价指标中都明显优于基线方法。
- 刘喜凯林鸿飞徐博杨亮杨亮
- 关键词:信息检索
- 人体大数据隐私保护实验平台设计
- 2018年
- 归纳了现阶段人体传感器网络大数据隐私保护面临的挑战与不足,并通过开展面向人体传感器网络大数据关键技术研究来建立适用于人体传感器网络特殊需求的大数据系统架构,提高系统安全性和隐私性,同时详细介绍了人体大数据实验平台的构成和原理,描述了系统框架的设置和隐私保护方法。实验表明:该平台能够有效保护人体大数据安全隐私,具有较好的教学与科研价值。
- 徐博林驰赵哲焕
- 关键词:隐私保护
- 一种用于构建用户画像的多视角融合框架被引量:44
- 2018年
- 电网公司的电费敏感客户往往对由用电引发的电量、电价、电费、缴费、欠费等电力服务具有强烈反应。快速定位电费敏感客户,对降低客户投诉率、提升客户满意度、树立供电企业良好的服务形象具有重要的作用。基于电网用户数据,提出了一种用于构建用户画像的多视角融合框架,该框架能够快速、准确地识别出电费敏感客户。首先,对电网用户进行了分析研究,利用双通道对不同特性的用户分别建模预测;其次,提出了多种特征萃取方法,用于构建用户多源特征体系;最后,为了充分利用多源特征,进一步提出了基于双层Xgboost的多视角融合模型。该框架在2016CCF大数据与计算智能大赛"客户画像"竞赛中获得了F1值为0.90379(第一名)的成绩,其有效性得到了验证。
- 费鹏林鸿飞杨亮徐博古丽孜热.艾尼外
- 软件标识符的自然语言规范性研究
- 2024年
- 软件源代码的理解是软件协同开发与维护的核心,而源代码中占半数以上的标识符的理解则在软件理解中起到重要作用,传统软件工程主要研究通过命名规范限制标识符的命名过程以构造更易理解和交流的标识符。该文在梳理分析常见编程语言命名规范的基础上,该文提出一种全新的标识符可理解性评价标准。具体而言,首先总结梳理了常见主流编程语言中的命名规范并类比自然语言语素概念,提出基于软件语素的标识符构成过程,即标识符的构成可被视为软件语素的生成、排列和连接过程;在此基础上,该文提出一种结合自然语料库的软件标识符规范性评价方法,用来衡量软件标识符是否易于理解;最后,通过源代码理解数据集和Github平台中开源项目对规范性指标进行了验证性实验,结果表明,该文所提出的规范性分数能够很好衡量软件项目的可理解性。
- 汶东震张帆张晓堃杨亮林原徐博林鸿飞
- 关键词:软件维护
- 一种用于构建用户画像的二级融合算法框架被引量:32
- 2018年
- 用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作是给用户贴"标签"。基于用户的查询词历史记录,提出一种用于预测用户多维标签的二级融合算法框架。在第一级模型中,分别在各个标签预测子任务上建立多种模型,使用传统机器学习方法与Trigram特征相结合来抽取用户用词习惯的差异,使用doc2vec浅层神经网络模型来抽取查询词的语义关联信息,使用卷积神经网络模型来抽取查询词之间的深层语义关联信息。实验表明,doc2vec在处理用户查询这样的短文本相关任务时有着相对较好的预测准确性。在第二级模型中,针对用户画像这样的多标签预测任务,使用XGBTree模型及Stacking多模型相融合的方法提取出用户各标签属性之间的关联信息,使得平均预测准确率进一步提高了2%左右。在2016年中国计算机学会(CCF)组织的大数据竞赛《大数据精准营销中搜狗用户画像挖掘》中,所提二级融合算法框架在894支队伍中夺得了冠军。
- 李恒超林鸿飞杨亮徐博魏晓聪张绍武古丽孜热.艾尼外
- 基于词向量和EMD距离的短文本聚类被引量:11
- 2017年
- 短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。
- 黄栋徐博许侃林鸿飞杨志豪
- 关键词:相似度计算聚类