许勇 作品数:11 被引量:34 H指数:3 供职机构: 北京工业大学计算机学院 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 教育部科学技术研究重点项目 更多>> 相关领域: 自动化与计算机技术 语言文字 更多>>
现代汉语通用分词系统 宋柔 戴伟长 罗智勇 娄珽 李卫亮 李飞 陈小荷 喻国宝 袁江 许勇 岳炳词 王慧玲 该研究技术原理为歧义切分对5段和5段以下的歧义字段进行了穷尽式的分析处理,对于5段以上的歧义字段提出了高准确度的一般性规则,实现了专名识别和排歧的一体化算法。性能指标:分词准确率(分词正确的字数/全文字数)>98%;分词...关键词:关键词:自动分词 专名识别 Web搜索与特定内容核查技术初探 2004年 为了快速、高效、准确地对Internet 上发布的Web 信息进行内容核查,本文提出了一种多层结构的Web搜索与特定内容核查软件的系统结构,分析了该结构的技术特点,并阐述了基于信息检索(IR)的特定内容核查的技术和方法。 许勇 喻国宝 马朝斌关键词:WEB搜索 WEB信息 多层结构 核查 信息检索 基于CRF的百科全书文本段落划分 被引量:4 2007年 CRF模型是标注、切分序列数据的较新的概率模型,在信息抽取等文本处理领域广受关注。该文介绍了CRF方法,并将其应用到百科全书文本段落的划分上,利用CRF的特征表述机制加入了文本单元序列中的长距离约束,取得了比传统的隐马尔科夫方法更好的结果。 许勇 宋柔关键词:条件随机域模型 隐马尔科夫模型 基于半CRF模型的百科全书文本段落划分 被引量:3 2008年 介绍了基于半条件随机域(semi-Markov conditional random fields,简称semi-CRFs)模型的百科全书文本段落划分方法.为了克服单纯的HMM模型和CRF模型的段落类型重复问题,以经过整理的HMM模型状态的后验分布为基本依据,使用了基于词汇语义本体知识库的段落开始特征以及针对特定段落类型的提示性特征来进一步适应目标文本的特点.实验结果表明,该划分方法可以综合利用各种不同类型的信息,比较适合百科全书文本的段落结构,可以取得比单纯的HMM模型和CRF模型更好的性能. 许勇 宋柔关键词:自然语言处理 隐马尔科夫模型 基于互连网的术语定义获取系统 被引量:21 2004年 文中介绍了一个实验性的基于互联网的术语定义获取系统 ,可以方便、迅速的从互连网上查找术语的定义以及与定义有关的内容 ,给用户迅速获得新生术语以及新技术词汇的定义方面的知识提供方便。系统采用一组术语定义的语言学模式 ,以多线程方式高效下载网页 ,并从中匹配符合术语定义模式的文本段落 ,再经一定后续处理 ,形成返回给用户的结果。系统中使用的语言学模式是在一定量的科技期刊语料库中获取的。试验结果表明系统的运行效率高 。 许勇 荀恩东 贾爱平 宋柔关键词:人工智能 自然语言处理 信息抽取 百科全书文本的段落划分研究 社会快速发展,各种知识爆发式增加。知识的自动获取,特别是从自然语言文本中自动获取知识成为重要的研究课题,这一课题既有极大的应用需求,又有理论上的挑战性。
百科全书文本中包含着集中、系统、全面的知识,是比较理想的... 许勇关键词:段落划分 HMM模型 CRF模型 自然语言文本 知识库 文献传递 基于HMM的百科辞典文本中知识点划分方法 在百科全书条目文本中,往往以几个不同的侧面说明一个条目,一个侧面构成有关这一条目的一个知识点。属于同一个类型的条目文本中总是重复出现有限的几个知识点,这些知识点构成了有关该类型的知识点集合,并且这些知识点在该类型中不同的... 许勇 宋柔关键词:HMM 自然语言处理 文献传递 基于百科词典的知识获取系统的研究与实现 从各种自然语言文本中获取知识是自然语言处理技术的重要应用。本文描述了从百科辞典文本中获取知识的探索性的研究工作,介绍了一个实验性的,限定范围的百科辞典知识获取系统。具体工作包括:利用分词工具进行初步的词条分类:在词条分类... 许勇 宋柔关键词:自然语言处理 知识获取 信息提取 文献传递 基于百科词典的知识获取系统的研究与实现 该文从信息提取的角度出发研究知识获取任务,实现了基于《中国大百科全书》的、限定范围内的试验性百科词典知识获取系统.具体工作包括:利用分司工具进行了初步的词条分类;在词条分类的基础上,对处理范围内的词条文本进行观察,以人工... 许勇关键词:自然语言处理 信息提取 文献传递 基于HMM的百科辞典文本中句子的知识点分类 被引量:5 2005年 在百科全书条目文本中,往往以几个不同的侧面说明一个条目,一个侧面构成有关这一条目的一个知识点。知识点是一般文本处理领域中话题这一概念在百科全书文本中的具体表现。属于同一个类型的条目文本中总是重复出现有限的几个知识点,这些知识点构成了有关该类型的知识点集合,并且这些知识点在该类型不同的条目文本中的分布有较强的规律性。在条目文本中识别出对应的知识点序列是百科全书中知识提取过程的重要一环。该文提出了一种基于隐马尔科夫(HMM)模型的方法,利用知识点在条目文本中的转移规律以及知识点的词特征分布来判断每个句子的知识点类别。实验表明这个方法能取得较好的结果,在《中国大百科全书》地理卷的中国县市类型的条目文本中的实验结果的正确率为91.8%。 许勇 宋柔关键词:HMM 自然语言处理