国家高技术研究发展计划(2006AA01Z151)
- 作品数:65 被引量:677H指数:13
- 相关作者:林鸿飞杨志豪杨亮王健林原更多>>
- 相关机构:大连理工大学朝阳师范高等专科学校中国刑警学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术语言文字医药卫生文学更多>>
- 基于权重标准化SimRank方法的查询扩展技术研究被引量:6
- 2011年
- 查询扩展是信息检索中的一项重要技术。传统的局部分析查询扩展方法利用伪相关文档作为候选词集合,然而部分伪相关文档并不具有很高的相关性。该文利用真实的搜索引擎查询日志,建立了查询点击图,经过多次图结构的转化得到能够反映词之间关联程度的词项关系图,并在图结构的相似度算法SimRank的基础上,提出了一种基于权重标准化的改进SimRank方法,该方法利用词项关系图中词项的全局和间接关系,能够有效挖掘与原始查询相关联的扩展词。同时,为降低SimRank算法的计算复杂度,该文采用了剪枝等策略进行优化,使得计算效率有大幅提高。在TREC标准数据集上的实验表明,该文的方法可以有效地选择相关扩展词。MAP指标较局部分析查询扩展方法提高了1.81%,在P@10和P@20指标评价中效果分别提高了5.44%和3.73%。
- 马云龙林原林鸿飞
- 关键词:搜索引擎查询扩展查询日志SIMRANK
- 基于LDA模型的博客垃圾评论发现被引量:25
- 2011年
- Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog已经成为互联网上的主要信息源之一,这也使得Blog空间中的垃圾评论成倍增长,因此如何识别垃圾评论成为面临的重要问题。该文首先借鉴处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而识别Blog空间的垃圾评论。通过实验验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog信息更加准确、有效的为用户使用。
- 刁宇峰杨亮林鸿飞
- 关键词:BLOG博文LDA主题垃圾评论
- 基于奇异值分解的蛋白质关系抽取
- 随着生物医学的迅速发展,从医学文献中抽取蛋白质关系已经成为面向生物医学方面的自然语言处理任务中一项非常重要的任务。目前研究学者已经提出很多蛋白质关系抽取的方法,但是其中大部分方法都要依赖于句法分析工具获得句法信息,语义信...
- 张霄林鸿飞杨志豪
- 关键词:蛋白质关系抽取奇异值分解
- 文献传递
- 基于资讯价值的股票资讯移动订阅系统
- 2010年
- 本文针对当前股票资讯服务中存在的实时性差、个性化缺乏和准确性不足等问题,设计并实现了一个基于资讯价值的股票资讯移动订阅系统。系统应用开源的Lucene和Weblech工具进行垂直搜索获取资讯,根据经济学知识构建个性化股票本体,通过查询扩展、本体匹配生成个性化的RSS种子,依据资讯价值进行排序,在移动端使用KXML进行解析,实现了资讯订阅。实验结果证明,本系统提供的股票资讯服务是有效的。
- 张清华林鸿飞
- 关键词:本体个性化股票
- 基于字符语言模型的垃圾邮件过滤
- 基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。本文先简单综述了当前基于内容的垃圾邮件过滤中采用的各种技术,在此基础上提出将基于字符的语言模型应用于垃圾邮件过滤任务中,并通过实验对比了该方法与Nave Bayes、S...
- 苏绥林鸿飞叶正
- 关键词:垃圾邮件过滤语言模型朴素贝叶斯支撑向量机N-GRAM
- 文献传递
- 基于标签共现的查询扩展研究
- 传统的查询扩展方法忽略了查询词与扩展词间的语义关联。随着Web 2.0的发展,folksonomy为网络提供了大量的社会化标注信息。作为folksonomy的核心,标签不仅可以高质量描述信息资源的内容和主题,并且标注相同...
- 晋松林鸿飞苏绥
- 关键词:FOLKSONOMY查询扩展标签共现
- 文献传递
- 基于组块分析的评价对象识别及其应用被引量:4
- 2011年
- 观点挖掘技术旨在面向更为广阔的产品领域,从文本中自动获取观点所评价的对象,并有针对性地分析评论的倾向性。本文通过建立ChunkCRF模型对观点表达句中显式观点评价对象的识别;借助句法关系对句中出现多个评价对象的问题进行处理;利用语义搭配习惯对隐式评价对象进行填充生成。在此基础上,本文实现了基于观点评价对象的观点抽取与观点倾向性识别。实验结果表明,本文方法可有效地用于提高观点分析的精度。
- 杨亮潘凤鸣林鸿飞
- 基于不同信息资源专利查询扩展方法的研究被引量:6
- 2016年
- 近年来查询扩展方法已被证明能有效地提升专利检索的平均性能,而大多数查询扩展方法仅使用实验数据集进行扩展词选择,很少有研究将外部信息源利用于专利检索,提高检索准确率。因此,本文在实验数据集基础上,同时采用一种利用外部资源的方法提升专利检索性能。该方法利用谷歌搜索引擎优化查询扩展方法的性能,并采用排序学习方法LambdaMART方法融合不同查询扩展方法,对信息源中的不同文本域进行加权处理,从而提升专利检索性能。在TREC数据集上的实验结果表明,基于本文所采用的信息资源进行查询重构的方法有效地提升了专利检索的性能。
- 许侃林原林鸿飞徐博
- 关键词:信息检索查询扩展
- 关键词密度分布法在偏重摘要中的应用研究被引量:1
- 2007年
- 偏重摘要系统是实现智能化信息服务的基础,偏重摘要不区分单文档与多文档,根据用户需求为用户提供结果。该文实现了用关键词密度分布方法获取偏重摘要的一个实验系统。研究了基于关键词密度分布方法生成摘要句的策略,通过两种不同的实验,对系统进行了评测。对实验结果进行了讨论。实验证明,该系统能够基本满足用户的查询要求,在基于检索任务和基于问答任务的两项不同的评测中均得到了较好的实验结果。
- 闫英杰林鸿飞杨志豪赵晶
- 关键词:密度分布
- 一种应用奇异值分解的RankBoost排序学习方法
- Learning to rank(排序学习)已经成为当今信息检索领域研究和讨论热点。它运用信息检索和机器学习领域的方法,结合相关性判断条件提供与查询更加相关的信息。当前的排序算法主要集中于相关性标注数据的使用,本文通过对...
- 林原林鸿飞苏绥
- 关键词:信息检索奇异值分解
- 文献传递