褚晓敏 作品数:18 被引量:44 H指数:4 供职机构: 苏州大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 江苏省科技计划项目 江苏省高校自然科学研究项目 更多>> 相关领域: 自动化与计算机技术 更多>>
宏观篇章结构表示体系、资源建设和计算模型研究 篇章结构分析是自然语言处理领域中的一个重要研究课题。篇章是由连续的话段或句子构成的语言整体,表达一个完整的语义信息。其特点是前后衔接、语义连贯,且具有一定的交际目的和功能。无论在形式上还是意义上,篇章都不是孤立存在的,而... 褚晓敏关键词:自然语言处理 篇章结构分析 文献传递 基于流程控制的汉语篇章结构语料协同标注系统 被引量:1 2021年 篇章分析系统性研究的开展依赖于大规模高质量的标注语料。现有标注语料以纯手工标注和单机辅助标注为主,难以满足标注效率和语料质量的需求。因此,该文提出了一套简洁的语料标注协同流程,并基于此实现了一个汉语篇章宏观结构语料协同标注系统,提供了一种流程简洁、分角色协同合作、自动流程控制、安全可靠的线上标注模式。该系统通过设立标注流程状态、收集标注流程中用户的行为数据和语料库辅助统计等方法,从流程控制角度,优化汉语宏观篇章的标注流程,实现质量管控和数据分析。项目实践表明,该系统有效减少了相关标注人员的工作量,提高了标注效率和标注质量,可为大规模、协同汉语篇章语料标注打下基础。 徐宸涵 顾宇浩 张志昊 褚晓敏 蒋峰关键词:篇章分析 自然语言处理 融合全局语义信息和结构特征的篇章功能语用识别方法 2022年 篇章分析是自然语言处理领域研究的热点和重点。相较于基于形式语法篇章分析的快速发展,篇章作为一个整体的语义单位,其功能和语义却没有引起足够的重视。该文提出一种融合全局语义信息和结构特征信息模型(FPRGS)来识别篇章的功能语用。该模型在获取篇章单元交互信息的同时融合篇章单元所在文章的全局信息,并使用门控语义网络将篇章单元的结构信息与语义信息结合,从而在语义和结构两方面获得了更加丰富的篇章单元信息。在汉语宏观篇章树库上的实验结果证明,该文提出的模型能够有效地识别篇章单元的功能语用。 杜梦琦 蒋峰 褚晓敏 李培峰 孔芳关键词:篇章分析 基于指针网络的汉语宏观篇章结构双向解析方法 2022年 宏观篇章结构解析旨在通过分析篇章的整体结构,为理解篇章的内容和主旨奠定基础。现有的研究大都采用了单一的自顶向下或自底向上的构建策略逐级地构建结构树,而单向构建策略无法根据不同待解析序列选择合适的解析动作,在解析流程中容易陷入决策局限性并将错误向后传播。该文提出一种集成自顶向下和自底向上两种构建策略的指针网络模型,该模型能同时利用两种构建策略的语义信息,从而选择合适的构建方式。在汉语宏观篇章树库(MCDTB 2.0)上的实验表明,通过集成两种构建方式,该文模型能有效提升篇章单元间的局部语义交互能力并减少构建过程中的错误传播,从而取得性能最优值。 何垅旺 范亚鑫 褚晓敏 蒋峰 李军辉 李培峰关键词:结构识别 基于多视角建模的汉语议论文写作质量评估方法 2023年 自动作文评分是一项代替人工为学生作文进行等级评分的任务,其中丰富的语义、严密的组织和合理的逻辑是重要的考虑因素。已有的研究大多数只从语义或组织等视角出发评估作文的质量,未考虑如逻辑等更高层次的因素。因此,文中提出了一个多视角评价框架(Multi-perspective Evaluation Framework,MPE),从语义表达、组织结构和整体逻辑3个方面对学生议论文进行了客观、可靠的评价。具体来说,多视角评价框架首先利用预训练模型编码句子并获得由低到高3个层次的语义信息,来评估文章的语义表达;其次,框架将句子功能识别与段落功能识别相结合,用于评估文章的组织结构;然后,通过计算段落之间的连贯性来评估文章的整体逻辑;最后,该框架综合这3个方面的评估特征,对作文评分。实验结果表明,所提出的多视角评价框架能够有效地对不同质量的作文进行评分,优于所有基准系统。 贺亚琼 蒋峰 褚晓敏 李培峰关键词:作文评分 议论文 基于简介和评论的标签推荐方法研究 被引量:7 2015年 Web 2.0时代,社会标签是信息资源组织的一种重要方式。标签推荐能够有效的帮助用户收集、定位、查找和共享在线资源。以往的标签推荐算法只是基于一种文本信息,比如基于电影的简介文本来进行标签推荐。但是实际上电影往往存在多种文本信息,比如同时存在摘要信息和评论信息,不同类型的信息能够反映电影的不同方面的属性,因此为了提高电影标签推荐的准确率和有效性,我们同时根据电影的简介和短评进行电影标签自动推荐,并使用多种方法融合基于不同类型文本的标签推荐的结果,实验证明,使用不同类型信息进行标签推荐能够比单一使用一种文本信息进行标签推荐有很大的提升。 褚晓敏 王中卿 朱巧明 周国栋关键词:自然语言处理 社会标签 社会关系网络 分类器融合 基于宏观语义表示的宏观篇章关系识别方法 被引量:3 2019年 宏观篇章分析旨在分析相邻段落或段落群之间的语义联系,是自然语言处理领域其他任务的工作基础。该文研究了宏观篇章分析中的关系识别问题,提出了一个宏观篇章关系识别模型。该模型利用基于词向量的宏观篇章语义表示方法和适用于宏观篇章关系识别的结构特征,从两个层面提高了模型分辨宏观篇章关系的能力。在汉语宏观篇章树库(MCDTB)上的实验表明,该模型在大类分类中F1值达到了68.22%,比基准系统提升了4.17%。 周懿 褚晓敏 朱巧明 蒋峰 李培峰基于宏观语义表示的宏观篇章关系识别方法 宏观篇章分析旨在分析相邻段落或段落群之间的语义联系,是自然语言处理领域其他任务的基础工作.本文研究了宏观篇章分析中的关系识别问题,提出了一个宏观篇章关系识别模型.该模型利用基于词向量的宏观篇章语义表示方法和适用于宏观篇章... 周懿 褚晓敏 蒋峰 李培峰 朱巧明关键词:结构特征 基于简介和评论的标签推荐方法研究 b2.0时代,社会标签是信息资源组织的一种重要方式.标签推荐能够有效的帮助用户收集,定位,查找和共享在线资源.以往的标签推荐算法只是基于一种文本信息,比如基于电影的简介文本来进行标签推荐.但是实际上电影往往存在多种文本信... 褚晓敏 王中卿 朱巧明 周国栋关键词:社会标签 基于流程控制的汉语篇章结构语料协同标注系统 篇章分析系统性研究的开展依赖于大规模高质量的标注语料。现有标注语料以纯手工标注和单机辅助标注为主,难以满足标注效率和语料质量的需求。因此,该文提出了一套简洁的语料标注协同流程,并基于此实现了一个汉语篇章宏观结构语料协同标... 徐宸涵 顾宇浩 张志昊 褚晓敏 蒋峰关键词:篇章分析 自然语言处理