国家自然科学基金(60775041)
- 作品数:13 被引量:51H指数:5
- 相关作者:郑家恒谭红叶何苑李荣张虎更多>>
- 相关机构:山西大学长治学院忻州师范学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划山西高校科技研究开发项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 大规模语料库可用性评测方法被引量:1
- 2009年
- 提出了一种大规模语料库可用性评测方法。通过分析语料库工程的生命周期,构建了大规模语料库可用性评测指标体系,运用层次分析-模糊综合评价方法实现了语料库的可用性评测,给出了语料库的可用性级别。分析语料库的评测结果,确定影响语料库可用性的瓶颈因素,进而提出针对性的改进措施。最后,举例说明了该方法在语料库上的应用。
- 李艳红郑家恒
- 关键词:大规模语料库层次分析法
- 基于遗传算法的隐马尔可夫模型在名词短语识别中的应用研究被引量:5
- 2009年
- 为了进一步提高名词短语的识别精度,针对遗传算法和隐马尔可夫模型各自的特点,提出一种基于遗传算法的隐马尔可夫模型识别方法。该方法是在高准确率词性标注的基础上实现的。在训练阶段,用遗传算法获取HMM参数;识别阶段先用一种改进的Viterbi算法进行动态规划,识别同层名词短语,然后用逐层扫描算法和改进Viterbi算法相结合来识别嵌套名词短语。实验结果表明,此联合算法达到了94.78%的准确率和94.29%的召回率,充分融合了遗传算法和隐马尔可夫模型的优点,证明它较单一的隐马尔可夫模型识别法具有更好的识别效果。
- 李荣郑家恒郭梅英
- 关键词:短语识别遗传算法隐马尔可夫模型VITERBI算法层次分析
- 一种面向搜索引擎的基于集合模型的搜索算法
- 2009年
- 现代搜索引擎中的搜索算法已经成为影响搜索引擎效率的一个关键,通过对现有搜索引擎中搜索算法的研究分析,提出了一种面向搜索引擎的基于集合模型的搜索算法,该方法利用集合运算方便并、交运算的特点,把检索问题转化为集合运算问题,这使得建立索引的过程和检索的过程简单化。实验表明,该方法能够有效的提高搜索引擎的搜索效率。
- 王路芳张虎
- 关键词:搜索引擎倒排索引关键词
- 基于主题的网页去重被引量:4
- 2008年
- 搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于主题的去重方法。该方法通过组块的思想提取出网页正文的主题,然后进行主题的相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。
- 樊勇郑家恒
- 关键词:组块向量空间网页去重主题
- 时间关系识别研究进展被引量:6
- 2011年
- 时间关系识别是自然语言中语义处理的一个重要任务,近年来得到了广泛的关注和快速的发展。该文参考大量的文献资料,总结了当前时间关系识别在标准、资源和评测中的进展,分析了研究中采用的多种方法和技术,探讨了研究中存在的问题和未来研究的重点。
- 谭红叶郑家恒梁吉业
- 关键词:自然语言处理
- 基于最大熵方法进行动词搭配的自动标注
- 2009年
- 搭配是汉语自动句法分析的重要知识源,而动词是句法分析的核心和前提。通过对已标注真实文本的分析,构造了动词搭配对的上下文变量信息特征模板,给出利用最大熵方法抽取动词—动词搭配,对待测的1000句汉语句子应用最大熵方法自动识别出搭配,其中封闭测试抽取正确率为85.6%,召回率达到70.6%。
- 白妙青郑家恒
- 关键词:语料搭配最大熵
- 基于规则的时间规范化研究
- 时间的表示和时间关系的计算是时间分析任务的关键和难点。其中不确定时间的规范化由于关系到不同语言之间时间共享,而且中文时间表达方式丰富多样,因此时间规范化是一个重要而又复杂的问题。针对这个问题,参考国际标准时间定义,重新定...
- 温艳霞谭红叶郑家恒
- 文献传递
- 基于多结构特征的垃圾博客识别研究被引量:6
- 2010年
- 为解决日益严重的垃圾博客问题,对产生垃圾博客的作弊技术和相应的识别技术进行了研究。通过对大量中文垃圾博客的分析,结合对作弊者目的的研究,提出了从用户名、发帖时间间隔、博文内容、锚文本和链接地址、分类标签等博客的结构特征出发的特征提取方法。在特征提取的基础上,提出了基于多结构特征的识别方法,并建立了相应的系统模型。使用支持向量机和朴素贝叶斯模型作为分类器进行了实验,并与经典的基于内容的方法进行了对比。实验结果表明,在小的训练集上,基于多结构特征的方法正确率达到90%以上,比基于内容的方法提高了6个百分点,该方法可有效区分垃圾博客和正常博客。
- 何苑谭红叶
- 关键词:中文信息处理朴素贝叶斯支持向量机
- 轮式移动机器人的模糊轨迹跟踪控制被引量:4
- 2009年
- 文章针对实际的轮式移动机器人轨迹跟踪控制问题提出了一种解决方法。利用模糊控制器实现对移动机器人的轨迹控制,并进行了计算机仿真和实际的轮式移动机器人的轨迹控制实验,将控制效果与传统的PID控制器的控制结果进行比较,结果表明了模糊控制在机器人轨迹跟踪问题上具有很好的性能。
- 谭永宏陈爱武
- 关键词:模糊控制轮式移动机器人
- 基于向量相似度计算的半监督的名实体识别被引量:2
- 2008年
- 提出一种基于向量相似度计算的半监督的NER方法,主要思想是:首先利用bootstrapping方法获取NER所需的各种特征;然后将待测实例表示为实例特征向量,每一类名实体表示为类特征向量;最后根据每个类特征向量与实例特征向量的相似度进行分类。在人民日报语料上选取疾病名、武器名、交通工具名进行相关测试,F测度分别为:77.4%,66.1%和73.1%,结果令人满意。
- 谭红叶赵铁军王浩畅
- 关键词:特征向量半监督学习自举