您的位置: 专家智库 > >

国家自然科学基金(60773027)

作品数:6 被引量:178H指数:4
相关作者:孙乐李文波张大鲲冯元勇诺明花更多>>
相关机构:中国科学院软件研究所中国科学院研究生院更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 7篇会议论文
  • 6篇期刊文章

领域

  • 13篇自动化与计算...

主题

  • 5篇中文
  • 4篇语言处理
  • 4篇自然语言
  • 4篇自然语言处理
  • 4篇查询
  • 3篇单字
  • 3篇信息处理
  • 3篇随机场
  • 3篇条件随机场
  • 3篇图模型
  • 3篇中文命名实体
  • 3篇中文命名实体...
  • 3篇中文信息
  • 3篇中文信息处理
  • 3篇文本分类
  • 3篇命名实体识别
  • 3篇计算机
  • 3篇计算机应用
  • 3篇LDA模型
  • 2篇网络

机构

  • 13篇中国科学院软...
  • 3篇中国科学院大...
  • 1篇中国科学院研...

作者

  • 10篇李文波
  • 10篇孙乐
  • 5篇冯元勇
  • 5篇张大鲲
  • 4篇王俞霖
  • 1篇吴健
  • 1篇董静
  • 1篇黄云平
  • 1篇诺明花
  • 1篇黄瑞红

传媒

  • 3篇中文信息学报
  • 1篇通信学报
  • 1篇电子学报
  • 1篇计算机学报
  • 1篇第五届全国信...

年份

  • 1篇2010
  • 3篇2009
  • 6篇2008
  • 3篇2007
6 条 记 录,以下是 1-10
排序方式:
基于上下文图模型文本表示的文本分类研究
传统的基于"词袋"的文本表示方法假定词的权重只和它本身的出现频率有关,而忽略上下文信息。本文提出了一种基于上下文的图模型文本表示方法,使用一种类似PageRank的图模型来建立词和词之间的相互推荐关系,该方法克服了传统文...
黄云平孙乐李文波
关键词:文本分类图模型PAGERANK
文献传递
基于规则和类型还原的用户查询意图识别
识别网络查询隐含的用户意图是一项具有重要意义和挑战性的工作。本文通过对真实用户查询日志的标注和分析,发现基于规则的方法可以对用户意图进行有效的识别。针对信息类、导航类和事务类三种用户意图,我们总结出若干规则对其进行自动识...
王俞霖孙乐黄云平李文波
文献传递
基于单字消除和实体识别的查询切分研究
查询切分是对查询进行结构分析和优化的基础。使用常规的分词方法对查询进行切分效果并不理想。在对分词错误进行分析的基础上,本文提出了一种单字消除和实体识别的查询切分方法。基于真实查询数据的实验结果表明,该分词方法的正确率和召...
王俞霖孙乐李文波
文献传递
基于单字提示特征的中文命名实体识别快速算法被引量:30
2008年
近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(Linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文命名实体识别精度的同时,有效地降低了模型的训练代价。
冯元勇孙乐李文波张大鲲
关键词:计算机应用中文信息处理中文命名实体识别条件随机场自然语言处理
基于Labeled-LDA模型的文本分类新算法被引量:110
2008年
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷.与传统LDA模型的实验对比表明:基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能,在复旦大学中文语料库上micro-F1提高约5.7%,在英文语料库20newsgroup的comp子集上micro-F1提高约3%.
李文波孙乐张大鲲
关键词:文本分类图模型
基于分类信心重排序的中文共指消解研究被引量:2
2007年
共指消解是自然语言处理的核心问题之一。本文针对分步消解中分类器全局信息的不足,依据分类信心对全体提及配对进行排序,优先根据可靠的分类结果对提及进行聚集或分离。实验表明,该算法在多个学习框架下显著地改善了系统的整体性能。
冯元勇孙乐董静李文波
关键词:计算机应用中文信息处理信息抽取自然语言处理聚类算法
基于单字提示特征的中文命名实体识别快速算法
近年水条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链 (linear-chain)模型一般采用 L-BFGS 参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速 CRF 算...
冯元勇孙乐张大鲲李文波
关键词:中文命名实体识别条件随机场自然语言处理
文献传递
基于“VASE”特征词的网络查询分类研究被引量:3
2009年
网络查询分类对提高搜索引擎的搜索质量有重要的意义。该文通过对真实用户查询日志的分析和标注,发现四种特征词(称之为"VASE"特征词)对查询分类起决定性作用。我们提取特征词并构造了一个特征词倒排索引,用于对查询进行主题分类。在此基础之上,提出了基于网络扩展和加权特征词的方法改善分类的效果。实验结果显示,基于此分类方法的正确率和召回率分别达到78.2%和77.3%。
王俞霖孙乐李文波
关键词:计算机应用中文信息处理网络扩展
基于Labeled-LDA模型的文本分类新算法
Latent Dirichlet Allocation(LDA)模型是近年来提出的一种具有文本主题表示能力的非监督学习模型。通过在传统 LDA 模型中融入文本类别信息,本文提出了一种附加类别标签的 LDA 模型 (Lab...
李文波孙乐黄瑞红冯元勇张大鲲
关键词:文本分类图模型
文献传递
一种LDA模型的高效并行求解算法
统计主题模型是近年来在文本信息处理领域发展起来的重要方法,由于模型结构的复杂性以及所需处理数据的巨大规模,所以迫切需求该类模型的高效求解算法。本文针对隐含主题模型LDA,研究了其变分求解算法的并行化方法。首先,提出一种新...
李文波孙乐
文献传递
共2页<12>
聚类工具0