余希田 作品数:4 被引量:17 H指数:3 供职机构: 中国医学科学院北京协和医学院 更多>> 发文基金: 美国中华医学基金 更多>> 相关领域: 文化科学 自动化与计算机技术 语言文字 更多>>
构建生物医学文献相关性数据库 2010年 本文利用后缀树向量空间模型(VSM),为每篇文献建立相应的基于内容的向量模型,通过夹角余弦得出文献之间的相似度,再结合中国医学科学院医学信息研究所提供的文献数据,最终构建出医学文献相关性数据库。该模型与传统的基于词表的VSM相比,最大的优点表现为:在获得文本的向量表示时,不需要基于词表的分词和特征项提取,而其这一特点正好能够解决现在相关性数据库中词表的建立和维护问题,从而使得该模型能够实时获得文本的向量表示。该模型的另外一个优点是与语种无关。 赵国光 尹湘舟 余希田 刘金刚关键词:后缀树 向量空间模型 特征项权重 国内外部分文献数据库检索系统相关文献功能浅析 被引量:11 2010年 探讨了PubMed,EMBASE.COM,Web of Science,中国知网,万方和维普6个文献数据库相关文献功能及其实现机制,对比分析了国内外文献数据库在相关文献提供方面的特点。结果显示,国外文献数据库检索系统的相关文献功能比较单一,具有较强的针对性和实用性;而国内文献数据库的相关检索功能相对比较完善,不仅能提供基于外部特征的相关文献,还能提供相关(关键词或分类号)文献的简单内容。在相关文献的实用性方面,中国知网优于万方数据库,万方数据库优于维普数据库。 王军辉 李丹亚 余希田 杨滨 诸文雁 胡铁军关键词:文献数据库 信息检索 基于向量空间模型的文献相关性数据库的研究与实现 被引量:5 2008年 探讨"相关性"的概念,简述文献相关性数据库的研究现状,提出基于词表和特征项提取的向量空间模型,并在此基础上设计、构建中国生物医学工程文献相关性数据库及其检索系统。 余希田 万莉莉 胡铁军 李丹亚关键词:向量空间模型 汉语自动分词歧义处理研究 被引量:3 2007年 汉语自动分词是中文信息自动处理的前提。就汉语自动分词的研究意义和难点、现有分词方法的分类以及分词系统等方面进行论述,重点探讨了分词歧义的产生、分类及消除,最后指出现有分词方法存在的问题并提出建议。 余希田 李丹亚 胡铁军关键词:汉语分词 分词方法 分词歧义 歧义消除