国家高技术研究发展计划(2003AA223603)
- 作品数:2 被引量:7H指数:1
- 相关作者:程文堂梁静徐亮高铭徐峻更多>>
- 相关机构:大连理工大学国家知识产权局中南大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:理学文化科学更多>>
- 机器学习算法在药物专利分类中的应用研究被引量:6
- 2007年
- 为实现药物专利的自动分类,本文结合药物专利的特点,研究了机器学习算法如何应用于药物专利分类。将2000余份药物专利按疗效分类,选取其中五类作为训练样本,对每一类提取特征文本,利用向量空间模型将非结构化的文本数字化,用支持向量机、Naive Bayes、RBFNetwork三种机器学习算法,分别测试专利样本的分类,使用5重交叉验证比较了三种算法的查准率(precision)和召回率(recall),结果表明支持向量机的分类效果最好。将机器学习算法应用于药物化学专利分类,有助于提高药物化学专利信息检索的效率。
- 梁静徐亮程文堂
- 关键词:药物专利文本分类支持向量机信息检索
- GFL:用于族性化学结构的标引图形形式语言被引量:1
- 2007年
- 为了满足日益增长的对专利检索的需求,国家高技术研究发展计划(863计划)启动了族性化学结构数据库系统的研究与开发。族性化学结构数据库系统主要涉及两方面的关键技术:(1)族性化学结构的计算机表达,(2)族性化学结构的检索算法。本文主要讨论族性化学结构的计算机表达。存在于化学专利原始文献中的族性化学结构是用具有一定规范的自然语言表述的。为了能在计算机系统中储存与检索这些信息,自然语言表述的族性化学结构必须转换为计算机可以接受的无歧义的形式语言。这个过程叫做族性化学结构的标引。国际上一般采用的基于结构片断的族性化学结构标引形式语言开发于20世纪70~80年代,这种形式语言与化学家采用的图形自然语言相去甚远,标引速度慢,成本高。本文介绍在ISIS/Draw绘图功能基础上发展起来的标引族性化学结构的图形形式语言,它的主要特点是与化学家日常使用的图形自然语言接近,规则简单易于掌握,从而提高标引效率,降低族性化学结构数据库系统的实现成本。
- 孙艳玲张迪杨素言苏向银高铭蒋克侠蒋淑梅孙旭王昕刘化冰甘霖徐峻
- 关键词:标引计算机检索