国家自然科学基金(61170111) 作品数:4 被引量:27 H指数:2 相关作者: 贾真 冶忠林 杨燕 何大可 李天瑞 更多>> 相关机构: 西南交通大学 更多>> 发文基金: 国家自然科学基金 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 更多>>
一种基于Apriori的搜索建议关键字提取算法 2012年 随着因特网技术的飞速发展,人们开始频繁地利用网络寻找、获取所需的资源,而传统的搜索引擎返回的结果数量庞大且呈线性排列,用户很难在短时间内找到所需的资源。文本聚类具有较强的灵活性和自动处理能力,成为解决问题的重要手段。以Lingo算法为主要研究对象,针对Lingo聚类算法提取标签时无法提取多个句子中标签的问题,引进Apriori算法来寻找主题,并将其作为搜索建议关键字,来较好地解决这个问题。 奚婷 杨燕关键词:搜索引擎 LINGO APRIORI 基于无监督学习的部分-整体关系获取 被引量:9 2014年 针对面向中文自由文本的部分-整体关系抽取问题,提出一种基于无监督学习的方法.首先提出子模式提取算法,从领域文本集中获取概念对和概念对所在上下文模式,利用概念对和概念对上下文模式建立分布式语义模型;然后采用协同聚类算法将具有相同语义关系的概念对聚合成簇,通过训练L1正则化逻辑回归模型提取簇的特征并得到代表每个簇语义关系的概念对上下文模式;最后根据模式识别表达部分-整体关系的簇,从而获取部分-整体关系概念对.实验结果表明,该方法取得较好的性能,F度量达到68.97%,优于传统聚类方法(55.77%)和模式匹配方法(61.95%). 贾真 何大可 尹红风 李天瑞关键词:本体 无监督学习 协同聚类 基于特征融合的高速列车振动信号特征分析 针对高速列车振动信号具有非线性、非平稳的特点,本文提出了基于特征融合的高速列车振动信号特征分析方法。首先,通过完备聚合经验模态分解将复杂的信号分解为一系列简单成分的近似平稳信号。通过相关性的分析,选取最能体现原信号特征的... 宋祎 杨燕 金炜东 江永全关键词:振动信号 文献传递 基于语义扩展的短问题分类 被引量:16 2015年 问题分类是问答系统任务之一。特别是语音交互方式中,用户的提问较短,具有口语化特征,利用传统文本分类方法对问题进行分类的效果不佳。为此提出一种基于语义扩展的短问题分类方法,该方法使用搜索引擎对问题进行知识扩展;然后,使用主题模型进行特征词选择;最后,利用词语相似度计算获取问题的类别。实验结果表明,所提方法在1 365条真实问题集上平均F-measure值达到0.713,其值高于支持向量机(SVM)、K近邻(KNN)算法和最大熵方法。因此,该方法在问答系统中可以帮助系统提升问题分类的准确率。 冶忠林 杨燕 贾真 尹红风关键词:主题模型 搜索引擎 问答系统 基于Tri-training与噪声过滤的弱监督关系抽取 被引量:2 2016年 弱监督关系抽取利用已有关系实体对从文本集中自动获取训练数据,有效解决了训练数据不足的问题。针对弱监督训练数据存在噪声、特征不足和不平衡,导致关系抽取性能不高的问题,文中提出NF-Tri-training(Tritraining with Noise Filtering)弱监督关系抽取算法。它利用欠采样解决样本不平衡问题,基于Tri-training从未标注数据中迭代学习新的样本,提高分类器的泛化能力,采用数据编辑技术识别并移除初始训练数据和每次迭代产生的错标样本。在互动百科采集数据集上实验结果表明NF-Tri-training算法能够有效提升关系分类器的性能。 贾真 冶忠林 尹红风 何大可关键词:关系抽取 TRI-TRAINING 数据编辑