国家自然科学基金(60703063)
- 作品数:7 被引量:66H指数:4
- 相关作者:吴云芳金澎俞士汶裴雨来王淼更多>>
- 相关机构:北京大学西安外国语大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 多分类器集成的汉语词义消歧研究被引量:16
- 2008年
- 词义消歧长期以来一直是自然语言处理中的热点和难题,集成方法被认为是机器学习研究的四大趋势之一.系统研究了9种集成学习方法在汉语词义消歧中的应用.9种集成方法分别是乘法规则、均值、最大值、最小值、多数投票、序列投票、加权投票、概率加权和单分类器融合,其中乘法规则、均值、最大值3种集成方法还未曾应用于词义消歧.选取支持向量机模型、朴素贝叶斯和决策树作为3个单分类器.在两个不同的数据集上进行了实验,其一是选自现代汉语语义标注语料库的18个多义词,其二是国际语义评测SemEval-2007的中英文对译选择词消歧任务.实验结果显示,首次在词义消歧中引入应用的3种集成方法乘法、均值、最大值有良好的性能表现,3种方法的消歧准确率均高于最佳单分类器SVM,而且优于其他6种集成方法.
- 吴云芳王淼金澎俞士汶
- 关键词:词义消歧多分类器集成均值
- “纸张粉碎机”的层次结构被引量:14
- 2010年
- 现代汉语中含动复合词的层次结构是对"纸张粉碎机"类复合词深入分析的前提,关于其为[N1+[V+N2]]还是[[N1+V]+N2],目前仍无定论。文章指出很多语言材料不支持[[N1+V]+N2];然后考察了前人对[N1+[V+N2]]的批评,并指出不支持此层次的语料。最后论述韵律词层面在分析中的必要性,并得出复合词层次结构。
- 裴雨来邱金萍吴云芳
- 关键词:层次分析韵律构词
- 基于SVM融合多特征的介词结构自动识别被引量:4
- 2009年
- 介词结构在汉语文本中出现频率很高,正确识别介词结构边界对句法分析、语音合成中的韵律短语划分有着重要意义。该文较为系统地探讨了汉语中常用介词的边界识别问题。利用支持向量机SVM模型,基于输出概率而不是简单的二分法来选择正确的后边界。探讨了不同的特征选择,并尝试加入语义信息等不同特征组合以提高识别准确率。对常用的68个介词进行边界识别实验,5折交叉验证的准确率达到90.95%,优于前人的识别结果。
- 温苗苗吴云芳
- 关键词:计算机应用中文信息处理支持向量机
- 词义消歧研究:资源、方法与评测被引量:11
- 2009年
- 词义消歧是计算语言学领域的基础性关键研究课题。本文从语言资源建设、词义消歧方法和国际语义评测三个方面概要地介绍了词义消歧研究的现状:语言资源建设主要介绍了语义词典构建和词义标注语料库建设;词义消歧方法重点介绍了有指导的机器学习方法;语义评测主要介绍了国际语义竞赛SemEval。以期了解词义消歧研究的前沿状态,促发从计算的角度来审视义项区分和词义描述,进而促进汉语词汇语义学的研究。
- 吴云芳
- 关键词:词义消歧
- 词义消歧相关术语简介被引量:1
- 2010年
- 词义消歧是计算语言学领域的基础性关键研究课题。本文介绍了与词义消歧相关的一些重要术语概念,包括词义消歧、词义区分、基于词典的词义消歧方法、有监督的词义消歧方法、词义标注语料库等。
- 吴云芳
- 关键词:词义消歧
- 现代汉语“很”充当修饰语的偏正结构研究被引量:3
- 2009年
- 现代汉语中存在11类程度副词"很"做修饰语的偏正结构,这11类偏正结构可以概括为4大类。"很"构成的偏正结构合法与否的关键是"很"与其中心成分语义是否契合,本文从这一角度统一解释11类"很+中心语"偏正结构,并据此分析其它"很+中心语"不合法的原因。
- 裴雨来
- 相似词获取的集成方法
- 语义相似度计算是自然语言处理领域的关键问题之一,在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。本文将集成方法应用于基于大规模语料库的汉语语义相似度计算上,提出并实现了不同...
- 石静邱立坤王菲吴云芳
- 关键词:语义相似度相似词
- 文献传递
- Disambiguating Dynamic Sentiment Ambiguous Adjectives
- Dynamic sentiment ambiguous adjectives(DSAAs) like'large,small, high,low'pose a challenging task on sentiment ...
- Yunfang Wu Key Laboratory of Computational Linguistics(Peking University)
- 词义标注语料库建设综述被引量:18
- 2008年
- 词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping策略在语料库建设方面的应用以及利用双语对齐语料库开展的相关研究。最后,针对词义标注语料库建设存在的问题提出自己的分析和思考。
- 金澎吴云芳俞士汶
- 关键词:计算机应用中文信息处理词义消歧平行语料库BOOTSTRAPPING