您的位置: 专家智库 > >

国家自然科学基金(61063015)

作品数:10 被引量:28H指数:4
相关作者:高定国赵栋材扎西加才让叁智索南尖措更多>>
相关机构:西藏大学青海师范大学更多>>
发文基金:国家自然科学基金长江学者和创新团队发展计划教育部人文社会科学研究基金更多>>
相关领域:自动化与计算机技术语言文字更多>>

文献类型

  • 10篇中文期刊文章

领域

  • 9篇自动化与计算...
  • 1篇语言文字

主题

  • 6篇藏文
  • 4篇藏语
  • 3篇分词
  • 2篇信息处理
  • 2篇语料
  • 2篇语料库
  • 2篇藏文分词
  • 2篇藏文信息
  • 2篇藏文信息处理
  • 1篇动词
  • 1篇虚词
  • 1篇引擎
  • 1篇语料库建设
  • 1篇语言处理
  • 1篇搜索
  • 1篇搜索引擎
  • 1篇索引
  • 1篇歧义
  • 1篇歧义问题
  • 1篇切分

机构

  • 9篇西藏大学
  • 1篇青海师范大学

作者

  • 4篇高定国
  • 3篇赵栋材
  • 2篇扎西加
  • 1篇才让叁智
  • 1篇才让洛加
  • 1篇索郎桑姆
  • 1篇索南尖措
  • 1篇羊毛卓玛

传媒

  • 5篇西藏大学学报...
  • 2篇西藏科技
  • 1篇计算机工程与...
  • 1篇中文信息学报
  • 1篇微处理机

年份

  • 4篇2013
  • 5篇2012
  • 1篇2011
10 条 记 录,以下是 1-10
排序方式:
藏文文本分词赋码一体化研究被引量:4
2012年
在藏文文本理解中虚词发挥着重要的句法、语义桥接作用,其规则的有效性在藏文分词处理中扮演着特殊的角色。由于虚词本身及其角色的丰富性,在一定意义上可以说藏文分词处理是虚词识别的过程。因此,虚词识别的正确与否直接影响着藏文文本分词处理的效果。文章依据藏语自身的语法规律和虚词功能的特殊性,首先构建了虚词知识库、虚词兼类库,以及其作为藏文连续文本中识别虚词的依据;其次,研制了标有词汇属性的分词词表和一定规模的训练语料库资源,以基于条件随机域(CRF)的方法进行词性标注,并结合虚词和词性赋码的资源制作了藏文自动分词赋码一体化处理的模型。
扎西加高定国
关键词:藏文分词
识别现代藏文基字的算法设计与实现被引量:1
2012年
识别藏文单音节的基字是藏文排序的基础,识别算法的劣质直接影响到藏文排序的速度和效率。文章在对藏文编码体系和藏文单音节本身的语法特点进行研究的基础上,设计一种识别藏文单音节基字的算法,经试验表明已达到较高的准确率。
才让洛加高定国
基于BP网络的木刻藏文经书文字识别研究被引量:5
2012年
木刻藏文经书文中出现字符间粘连、断裂、遮挡现象严重,为识别带来极大的困难。在字符切分、特征提取等文字识别方法基础上,增加了基于BP网络的训练方法,通过对大量的木刻藏文经书字符的训练,修正了数据,收敛了识别结果。实验结果显示,此方法有助于提高木刻藏文经书的文字识别正确率。
赵栋材
关键词:文字识别BP网络
藏语语料库TEI标记规范探讨被引量:4
2011年
在语言信息处理过程中,大规模真实文本处理已成为一个研究热点。藏语语料库的标记在汉藏英机器翻译、信息检索、文本数据挖掘、词典编纂的研究工作中占很重要的地位。为了便于数据交换和共享,该文基于TEI编码的藏语语料,对藏语语料库中文本的属性信息和结构信息标记做了系统而全面的探讨。
扎西加高定国
关键词:藏语语料库
大型藏语平衡语料库建设中样本类别号的研究被引量:1
2013年
藏文语料库是计算机研究藏语规律的素材,建设藏语语料库是藏文信息处理研究的基础和前提。语料库建设中样本的类别号是识别样本类别的依据,也是关联藏文语料信息库、样本文档和使用者的纽带,在语料库建设中非常重要。文章结合藏语平衡语料库的建设,设计了藏文语料数据库,划分了藏文语料库的类别并设计实现了样本类别号的产生方法。
高定国索郎桑姆
关键词:藏语语料库
藏语动词的黏着性及屈折性变化研究被引量:2
2013年
文章以藏文传统文法理论为依据,以具有黏着性和屈折性变化的动词特征作为研究对象,分析和说明了藏语动词的各个式和时态下其形态的变化情况,并从中总结了拟测式、判断式、否定式、命令式、推断式等5种式和3个时态的分类。这对藏语动词属性库的建立和分类精细化方面提供了新的视角,并且为词性标注、自动分词、机器翻译、自然语言理解等藏文信息处理领域的各项研究工作打下了基础。
索南尖措
面向藏语自然语言处理的藏语语言资源建设被引量:2
2012年
藏语语言资源的匮乏使很多藏语自然语言处理研究还停留在小规模试验阶段,不能够真正地发展到大规模和实用的程度。国内以西藏大学、青海师范大学、西北民族大学、中国社会科学院等为主的单位各自都在建设藏语资源,但是由于资金、人力、技术等原因,大多数资源还达不到可以实用的规模。而且事先又没有统一的规划和布局,没有相关的系列标准,使得各家的相关资源很难融合。另一方面,因为没有一个好的资源共享机制,使得这些资源难以得到推广和共享。文章从藏语自然语言处理角度分析了藏语语言资源建设的迫切性和重要性以及建设过程中一些问题进行了探讨。
赵栋材
关键词:自然语言藏语
基于虚词切分的藏文分词系统的设计与实现被引量:4
2012年
藏文分词是藏文自然语言处理的基础。根据藏文虚词在藏文文本中的特殊作用以及虚词的兼类性、结合性、黏着变体性和还原特性,设计实现了一个基于藏语虚词切分的正向最大匹配的藏文分词系统,该系统对原始文本进行逐次扫描处理得到分词结果。实验表明,文章提出的藏文分词系统具有较高的切分精度和切分速度。
赵栋材
关键词:藏文分词藏文信息处理中文信息处理
藏文搜索引擎中的分词算法研究被引量:4
2013年
随着藏文信息技术的不断普及和发展,搜索引擎技术成为藏文信息处理一项新的研究课题。对搜集到的藏文网页文本或用户查询关键词进行理解、提取和组织等处理是搜索引擎的一项基础性工作,其中藏文分词的准确与否,直接影响到搜索引擎查询效果及查询结果列表的排序问题,因此分词成为藏文搜索引擎技术中需要解决的关键问题。文章针对藏文搜索引擎中基于字符串匹配的藏文分词技术进行研究并提出相应的解决算法。
才让叁智
关键词:藏文文本藏文分词
藏文词性自动标注中歧义问题处理方法研究被引量:1
2013年
藏文词性自动标注是藏文信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性歧义问题的处理是藏文词性自动标注的关键所在,也是藏文信息处理的难点问题。对藏文词性标注中词性歧义问题进行了分析研究,提出了符合藏文语法规则实用于藏文词性标注的解决词性排岐方法。实验证明:该处理方法在藏文词性自动标注中对词性排岐方面有较好的效果,使藏文词性标注正确率有了一定的提高。
羊毛卓玛
关键词:藏文信息处理词缀词性
共1页<1>
聚类工具0