邵艳秋
- 作品数:11 被引量:22H指数:3
- 供职机构:北京语言大学信息科学学院更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金教育部人文社会科学研究基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于主题模型的古典乐器诗词文本挖掘
- 古代先贤将乐器按其制作材料分为八类,《周礼·春官·大师》中记载"皆播之以八音:金石土革丝木匏竹."本文将《全唐诗》、《全宋词》中有关"八音"的诗句、词句作为研究对象,使用基于LDA和NMF的主题挖掘、基于Author-T...
- 申资卓杨莹邵艳秋
- 关键词:主题模型相似度计算
- 汉语基本复合名词短语语义关系知识库构建与识别被引量:2
- 2019年
- 汉语复合名词短语因其使用范围广泛、结构独特、内部语义复杂的特点,一直是语言学分析和中文信息处理领域的重要研究对象。国内关于复合名词短语的语言资源极其匮乏,且现有知识库只研究名名复合形式的短语,包含动词的复合名词短语的知识库构建仍处于空白阶段,同时现有的复合名词短语知识库大部分脱离了语境,没有句子级别的信息。针对这一现状,该文从多个领域搜集语料,建立了一套新的语义关系体系,标注构建了一个具有相当规模的带有句子信息的基本复合名词语义关系知识库。该库的标注重点是标注句子中基本复合名词短语的边界以及短语内部成分之间的语义关系,总共收录27007条句子。该文对标注后的知识库做了详细的计量统计分析。最后基于标注得到的知识库,使用基线模型对基本复合名词短语进行了自动定界和语义分类实验,并对实验结果和未来可能的改进方向做了总结分析。
- 张文敏李华勇邵艳秋
- 基于主题模型的古典乐器诗词文本挖掘被引量:3
- 2019年
- 古代先贤将乐器按其制作材料分为八类,《周礼·春官·大师》中记载"皆播之以八音:金石土革丝木匏竹。"该文将《全唐诗》、《全宋词》中有关"八音"的诗句、词句作为研究对象,使用基于LDA和NMF的主题挖掘、基于Author-Topic-Model的作者相似度计算等方法。从宏观到微观,从整体诗词到具体诗人/词人,从主题的聚类、动词形容词的抽取到具体诗人词人作品相似度的计算,多维度、多层次、多角度研究了唐诗宋词中的中国古典乐器。
- 申资卓杨莹邵艳秋
- 关键词:唐诗宋词主题模型
- 基于用户自然标注的微博文本的消费意图识别被引量:7
- 2017年
- 消费意图是指用户在文本中明确表达出的购买产品或服务等一些商业消费的意愿,如"想买一部手机"。该文针对微博上的消息文本,提出一种基于用户自然标注的微博消费意图识别方法。该方法将微博消费意图识别看作为领域自适应学习问题,通过自动获取的训练语料基于源域和目标域共同特征设计分类器,抽取置信度高的伪标注消费意图微博,再利用微博特征训练新的分类器对微博进行消费意图识别。实验结果表明该文所采用的方法是有效的,F值达到69%和77%,其中使用的各种特征对于提高消费意图识别的效果皆有帮助。
- 付博陈毅恒邵艳秋刘挺
- 关键词:社会媒体领域自适应
- 基于语义依存构式的中文文本语义复杂度特征研究
- 2023年
- 语义对文本复杂度的影响至关重要。本文聚焦中文文本语义复杂度特征,提出“语义依存构式”这一概念,将其作为文本分析的基本单位,构建出基于语义依存构式的中文文本复杂度特征体系;随后使用语义依存分析等自然语言处理技术对语义依存构式及其复杂度特征进行自动抽取和计算;最后,在文本复杂度分级任务中引入句法依存构式复杂度特征,对句法依存构式复杂度特征和语义依存构式复杂度特征分别构建机器学习模型,进行文本复杂度自动分级实验。实验结果显示,相较于句法依存构式复杂度特征,语义依存构式复杂度特征在中文文本复杂度分级任务中有更好的表现。
- 殷晓君邵艳秋
- 基于语义依存图库的兼语句句模研究被引量:2
- 2015年
- 句子语义分析是语言研究深入发展的客观要求,也是当前制约语言信息处理技术深度应用的主要因素。在探索深层语义分析方法的基础上,该文根据汉语的特点,提出了一整套语义依存图的构建方法,并建立了一个包含30 000个句子的语义依存图库。以兼语句为重点研究对象,该文研究了语料库中所有纯粹的兼语句所对应的句模情况,进而试图构建基于语义依存图的句模系统,总结句型和句模的映射规则,从而为更好的建立语义自动分析模型提供相应的知识库。
- 郑丽娟邵艳秋
- 关键词:句模语义分析兼语句
- 基于语义依存图库的兼语句句模研究
- 语义分析是语言研究深入发展的客观要求,也是当前制约语言信息处理技术深度应用的主要因素.在探索深层语义分析方法的基础上,文章根据汉语的特点提出了语义依存图深层语义分析理论,并且根据这种理论,建立了一个包含30,000个句子...
- 郑丽娟邵艳秋
- 关键词:兼语句
- 汉语复合名词短语语义关系知识库构建与自动识别研究
- 汉语复合名词短语因其使用范围广泛、结构独特、内部语义复杂的特点,一直是语言学分析和中文信息处理领域的重要研究对象.国内关于复合名词短语的语言资源极其匮乏,且现有知识库只研究名名复合形式的短语,包含动词的复合名词短语的知识...
- 张文敏李华勇邵艳秋
- 关键词:知识库
- 基于数据选择和局部伪标注的跨领域语义依存分析研究
- 2023年
- 语义依存分析要走向实用,模型从单领域迁移到其他领域的领域适应能力至关重要。近年来,对抗学习针对领域适应任务取得了较好的效果,但对目标领域的无标注数据利用率并不高。该文使用自训练方法用来提高无标注数据的利用效率,弥补对抗学习方法的不足。但传统的自训练方法效率和性能并不好,为此该文针对跨领域语义依存分析任务,尝试强化学习数据选择器,提出了局部伪标注的标注策略,实验结果证明,该文所提出的模型优于基线模型。
- 毛达展喻快邵艳秋
- 中文非投射语义依存现象分析研究被引量:7
- 2014年
- 汉语是一种语序灵活的语言,句子变式很多,基于传统依存树的投射现象还不能很好解决某些句式的语义理解问题。文章以10 000个句子的汉语语义依存图库为基础,验证并明确了汉语非投射现象的客观存在性,考察了汉语句子中存在的非投射现象,并从语言学和句子深层语义理解的角度对非投射现象进行了归纳和解释。文章总结了7类出现非投射现象的情况,包括小句宾语句、比较句、主谓谓语句、紧缩复句、代词、动补谓语句以及注释短语或复句。这对于自动语义依存标注有重要的指导作用。
- 郑丽娟邵艳秋杨尔弘
- 关键词:语义分析语义依存