王秋月 作品数:19 被引量:55 H指数:5 供职机构: 中国人民大学信息学院 更多>> 发文基金: 国家自然科学基金 国家重点实验室开放基金 中国人民大学科学研究基金 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
XML元素级检索的反馈算法 被引量:3 2010年 XML作为网上数据表示和交换的标准具有日益广泛的应用。近年来,XML元素级检索得到越来越多信息检索领域研究者的关注。如何提高XML元素级检索效果已经成为一个重要的研究课题。在LEMUR系统里实现了一种针对XML元素级检索的新反馈算法,大幅度地提高了检索结果的精度。利用INEX提供的XML文档集、评测系统等进行了长期的实验。实验数据显示,该算法以内容作为反馈信息使系统的平均精度提高了15.70%,以内容和结构作为反馈信息使系统的平均精度提高了18.19%。 李露平 王秋月 王珊XML关键词检索的查询理解 被引量:2 2012年 与纯文本文档集相比,使用语义标签标注的半结构化的XML文档集,有助于信息检索系统更好地理解待检索文档.同样,结构化查询,比如SQL,XQueFy和Xpath,相对于纯关键词查询更加清晰地表达了用户的查询意图.这二者都能够帮助信息检索系统获得更好的检索精度.但关键词查询因其简单和易用性,仍被广泛使用.提出了XNodeRelation算法,以自动推断关键词查询的结构化信息(条件/目标节点类型).与已有的推断算法相比,综合了XML文档集的模式和统计信息以及查询关键词出现的上下文及其关联关系等推断用户的查询意图.大量的实验验证了该算法的有效性. 李求实 王秋月 王珊多维直方图的动态空间管理 本文从空间管理角度讨论在函数依赖或者近似函数依赖的情况下,多维直方图如何在给定的空间预算内,通过在多维直方桶和单值桶之间有效地动态分配和管理空间,大大提高空间预算的利用率,进而提高多维直方图的准确性。实验验证了动态空间管... 曹巍 王秋月 覃雄派 王珊关键词:多维直方图 文献传递 扩展知识图谱上的实体关系检索 被引量:5 2016年 现有文本数据集上的实体搜索和自然语言查询方法无法处理需要将分散在不同文档中的信息碎片链接起来以满足有复杂实体关系的查询,而知识库上的查询虽然可以表示实体间的复杂关系,但由于知识库的异构性和不完全性,通常查全率较低。针对这些问题,提出使用文本数据集对知识库进行扩展,并设计相应的含文本短语的三元组模式查询以支持对知识库和文本数据的统一查询。在此基础上,设计并实现了查询放松机制和对结果元组的评分模型,并给出了高效的查询处理方法。使用YAGO、Clue Web09和其上的FACC1数据集,在三个不同的查询测试集(实体检索、实体关系检索和复杂的实体关系查询)上与两个典型相关工作作了比较。实验结果显示,扩展知识图谱上使用查询放松规则的实体关系检索系统的检索效果大大超出了其他系统,具体地在三个查询测试集上,其平均正确率均值(MAP)比其他系统分别提升了27%、37%和64%以上。 王秋月 覃雄派 曹巍 覃飙关键词:知识图谱 平衡IO和CPU的XML关键词检索技术 由于当前XML在数据交换和数据存储中的普遍应用,基于XML文档的信息检索研究已经成为新的研究热点。XML文档本身含有结构信息可以使其检索精度得到相当大的提高。但相应地,XML检索中使用的更复杂的评分模型(如组合语言模型和... 李求实 王秋月 王珊关键词:XML I/O 语言模型 文献传递 廿一世纪数据库系统的未来研究方向 被引量:10 1996年 关于数据库系统未来研究的第二次研讨会受到美国国家科学基金(NSF)的支持。参加这次研讨会的有二十多位著名的数据库专家,如中国数据库界熟悉的Phil Bernstein, Mike stonebraker, Jeff Ullman和Gio wiederhold等。1995年5月,该研讨会发布了研究报告:"Database Research: Achievements and Opportunities Into the 21st Century"。此报告内容丰富,对今后数据库的研究具有重大指导意义和参考价值。我们将其编译出来,供国内广大数据工作者、政府及企业界人士参考。 王珊 王秋月 刘方 罗立 张孝 姚卿达 屈定春关键词:数据库系统 多媒体 信息处理 一种高效的贝叶斯网络敏感性分析方法 被引量:7 2016年 我们经常需要修改网络参数以在局部信任度改变时集成新的概率信息,贝叶斯网络的敏感性分析就是研究网络参数与输出概率之间的关系.首先剪枝掉那些不能到达证据的节点,然后采用联合树算法对剪枝后的贝叶斯网络进行的敏感性分析,该算法在每一簇中缓存中间结果以加速计算P(e)相对于下一变量P(xi|ui)的一阶偏导;并且能够在各个簇中并行地计算导数.我们利用偏导的计算结果对两类网络参数进行敏感性分析:调整单个参数和调整整个条件概率表,并分别提出算法来进行处理.最后,实验结果证实了我们的算法在进行敏感性分析时的高效性. 覃飙 王秋月 李超关键词:贝叶斯网络 联合树 基于主题模型的深层网数据源选择算法 被引量:3 2015年 联邦搜索是从大规模深层网上获取信息的一种重要技术。给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源。现有的数据源选择算法大多基于数据源的样本文档集和查询之间的关键词匹配,通常无法很好地解决少量样本文档的信息缺失问题。针对这一问题,提出了基于隐含狄利克雷分布(LDA)主题模型进行数据源选择的方法。首先,使用LDA主题模型获得数据源和查询的主题概率分布;然后,通过比较两者主题概率分布的相近性来对所有数据源进行排序。通过将数据源和查询映射到低维的主题空间来解决高维词条空间稀疏性所带来的信息缺失问题。在TREC Fed Web 2013和2014 Track的测试集上分别进行了实验,并和其他参赛方法的结果进行了比较。在Fed Web 2013测试集上的实验结果显示比其他参赛方法的最好结果提高了24%;在Fed Web 2014测试集上的实验结果显示比传统的基于小文档和大文档的关键词匹配方法分别提高了22%和43%。另外,使用文档片段来代替文档还可以大幅提升系统的效率,更增加了此方法的实用性和可行性。 王秋月 曹巍 史少晨关键词:主题模型 数据源选择 平衡IO和CPU的XML关键词检索技术 由于当前XML在数据交换和数据存储中的普遍应用,基于XML文档的信息检索研究已经成为新的研究热点。XML文档本身含有结构信息可以使其检索精度得到相当大的提高。但相应地,XML检索中使用的更复杂的评分模型(如组合语言模型和... 李求实 王秋月 王珊关键词:语言模型 关键词检索 文献传递 EAE:一种酶知识图谱自适应嵌入表示方法 被引量:2 2017年 近年来,构建大规模知识图谱(knowledge graph,KG),并用其解决实际问题已经成为大趋势.KG的嵌入表示方便了机器学习在KG等关系数据上的应用,它可以促进知识分析、推理、融合、补全,甚至决策.最近,开放域知识图谱(open-domain knowledge graph,OKG)的构建和嵌入表示已经得到蓬勃发展,大大促进了开放域中大数据的智能化.与此同时,特定域知识图谱(specific-domain knowledge graph,SKG)也成为了特定领域中智能应用的重要资源.但是,SKG还不发达,其嵌入表示尚处于萌芽阶段.这主要是由于SKG与OKG的数据分布显著不同,更具体地说:1)在OKG中,如WordNet,Freebase,头/尾实体的稀疏度几乎相等;但是在Enzyme,NCI-PID等SKG中不均匀性更受欢迎,例如微生物领域的酶KG中尾实体是头实体的1 000倍.2)头实体和尾实体可以在OKG中交换位置,但是它们在SKG中是非交换的,因为大多数关系是属性.例如实体"奥巴马"可以是头实体也可以是尾实体,但是头实体"酶"总是处于头位置.3)关系的广度在OKG中具有小的偏差,而SKG中很不平衡.例如一个酶实体甚至可以链接31 809个"x-gene"实体.基于这些观察,提出了一个新方法 EAE来处理这3个问题,并在链接预测和元组分类任务上评估了EAE方法.实验结果表明:EAE显著优于Trans(E,H,R,D和TransSparse),达到了最先进的性能. 杜治娟 张祎 孟小峰 王秋月关键词:非交换 不平衡