随着社交网络的兴起和发展,互联网上出现了大量与商品有关的社会信息。如何利用这些社会信息结合商品元数据进行检索和推荐是信息检索领域中一个热门的研究问题。本文以社会图书检索为例,提出了一种通用的信息检索方法来解决这一问题。首先,通过分析原始图书数据集和图书的用户标签、用户评分和流行度等社会信息,从图书中提取不同的社会特征构建特征矩阵;然后分别计算图书在各种社会特征上的相似度,并使用不同的策略对搜索引擎返回的排序结果进行重排序;最后使用学习排序的方法进行重排结果融合,得到最终的图书检索结果。在实验中,使用该检索方法在INEX Social Book Search 2015和2016数据集上分别进行了训练和测试。结果表明,相比现有的技术,该检索方法能够有效提升图书检索的效果。
如何有效的进行生物医学文献检索和信息挖掘,是计算机技术和生物信息技术研究领域中的一个经典课题。本文对生物医学文献中自然语言问题文档,片段,概念和RDF三元组,构建了高效的检索和问答系统。特别的,在文档检索中,我们搭建了基于顺序依赖模型,词向量,和伪相关反馈相结合的通用检索模型;同时,前k个文档被分离为句子和片段,并以此建立检索索引,并基于文档检索模型,完成片段检索;在概念挖掘中,提取生物医学的概念,列出相关的概念属于网络服务的五个数据库链接,通过得分排名得到最终的概念。在CLEF Bio ASQ几年的评测数据上,我们构造的检索系统都取得了不错的性能。
用图书的出版信息和用户生成的社会信息从社会媒体中搜索出相关的图书已成为信息检索系统的一个研究热点。大部分的信息检索系统都是由单一的检索方法构成,随着用户需求的不断增加,这些系统难以满足用户需求。针对上述问题,提出了一种基于重排序融合的图书检索系统。使用伪相关反馈技术对用户查询内容进行扩展,并将检索结果作为初排序结果;再使用用户生成的社会信息特征对初排序结果进行重排序,最后采用排序学习模型对多种重排序策略得到的结果进行融合。在INEX 2012—2014 Social Book Search公开数据集上针对其他先进检索系统进行了对比实验,实验结果表明,系统的性能(NDCG@10)优于其他方法构成的图书检索系统。