国家教育部博士点基金(20093201110006) 作品数:12 被引量:118 H指数:6 相关作者: 朱巧明 李培峰 周国栋 李寿山 王中卿 更多>> 相关机构: 苏州大学 江苏省计算机信息处理技术重点实验室 苏州职业大学 更多>> 发文基金: 国家教育部博士点基金 国家自然科学基金 江苏省自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
平行推理机制:一种隐式篇章关系检测方法 被引量:2 2014年 篇章是论元经过语义关联和结构化组织形成的自然语言文体.篇章分析研究的核心任务之一是解释论元的语义关系,其中,显式关系因具有直观线索而易于检测,目前检测精度高达90%;相对而言,隐式关系因缺乏直观线索而难于检测,目前精度仅约40%.针对这一问题,基于一种"论元平行则关系平行"的假设,并利用显式篇章关系易于检测的特点,通过平行论元的识别与平行关系的消歧,实现了一种显式关系平行推理隐式关系的隐式篇章关系检测方法.利用标准宾州篇章关系树库(Penn discourse Tree Bank,简称PDTB)对这一检测方法进行评测,结果显示,精确率提升达17.26%. 洪宇 严为绒 车婷婷 梁颖红 姚建民 朱巧明 周国栋关键词:篇章 语义分析与词频统计相结合的中文文本相似度量方法研究 被引量:44 2012年 基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。 华秀丽 朱巧明 李培峰关键词:向量空间模型 语义分析 词频 文本相似度 细粒度科技论文摘要句子分类方法 被引量:3 2012年 以科技论文摘要句子为研究对象,提出一种两阶段的细粒度句子分类方法,通过结合摘要内各个句子的位置、关键词和上下文信息,选择部分易于分辨语境类型的句子,将其作为种子样本训练获得分类模型。利用机器学习的方法对摘要句子的背景知识、论文主题、研究方法和实验结果进行自动分类。实验结果表明,该方法中的F度量值比其他细粒度分类方法平均高3%~5%。 华秀丽 徐凡 王中卿 李培峰关键词:细粒度 语境 基于网页文本依存特征的人名消歧 被引量:6 2012年 研究互联网中的人名消歧问题。抽取与网页文本中人名关键字实体相关的依存特征及命名实体等辅助特征,利用二层聚类算法,根据依存特征将可信度高的文档聚类,使用辅助特征将剩余文档加到现有聚类结果中,由此实现人名消歧。实验结果证明,该方法消歧效果优于其他人名消歧方法。 杨欣欣 李培峰 朱巧明关键词:人名消歧 聚类 基于状态和行为描述的情感分类方法 2012年 为利用情感文本不同侧面的信息,提出一种基于状态和行为描述的情感分类方法。将情感文本的描述分为情感的状态和行为2个视图,并利用2个视图的融合进行情感分类。为自动获得2个视图,人工标注了相应的语料,通过二元分类器构建状态和行为检测系统。在此基础上采用组合分类器方法融合2个不同的视图。实验结果证明,该方法在3个领域中文情感分类任务上的分类效果均有所提高。 张慧 王中卿 李寿山 杨欣欣 李培峰 朱巧明关键词:中文信息处理 情感分析 最大熵 分类器融合 话题跟踪中静态和动态话题模型的核捕捉衰减 被引量:19 2012年 话题跟踪是一项针对新闻话题进行相关信息识别、挖掘和自组织的研究课题,其关键问题之一是如何建立符合话题形态的统计模型.话题形态的研究涉及两个问题,其一是话题的结构特性,其二是话题变形.对比分析了现有词包式、层次树式和链式这3类主流话题模型的形态特征,尤其深入探讨了静态和动态话题模型拟合话题脉络的优势和劣势,并提出一种基于特征重叠比的核捕捉衰减评价策略,专门用于衡量静态和动态话题模型追踪话题发展趋势的能力.在此基础上,分别给出突发式增量式学习方法和时序事件链的更新算法,借以提高动态话题模型的核捕捉性能.实验基于国际标准评测语料TDT4,采用NIST(National Institute of Standards and Technology)提出的最小检测错误权衡系数评测法,并结合所提出的核捕捉衰减评价方法,对各类主要话题模型进行测试.实验结果显示,结构化的动态话题模型具有最佳的跟踪性能,且突发式增量式学习和时序事件链的更新算法分别给予动态话题模型0.4%和3.3%的性能改进. 洪宇 仓玉 姚建民 周国栋 朱巧明基于CRFs和跨事件的事件识别研究 被引量:12 2012年 事件检测与类型识别是事件抽取的基础,具体实施分为触发词检测和事件类型识别2个阶段。分别对2个阶段进行研究,在前一阶段,针对词形特征过拟和问题,提出利用LDA模型对词语聚类的方法,考虑到中文自动分词与标注的触发词边界的不一致性,提出基于CRFs模型的触发词识别方法。在后一阶段,为提高事件类型识别的效果,将跨事件理论应用于中文事件类型识别。实验结果表明,该方法能提高系统性能,F值分别提高到66.3和62.0。 侯立斌 李培峰 朱巧明关键词:事件抽取 LDA模型 基于树核的隐式篇章关系识别 被引量:17 2013年 隐式篇章关系识别是篇章结构分析中最具有挑战性的任务之一.传统的方法注重篇章中的概念和意义特征,导致系统的性能不高.系统地探索了篇章中的浅层语义信息和以态度韵为导向的句子级情感等平面特征的有效性,同时提出了一种简单而有效的树核方法,最后采用复合核方法加以集成.在Penn Discourse Treebank(PDTB)2.0语料库上的实验结果表明,引入浅层语义和情感等信息后,准确率得到显著提升. 徐凡 朱巧明 周国栋关键词:篇章 篇章结构分析 树核 复合核 基于情绪词的非监督中文情感分类方法研究 被引量:10 2012年 情感分类任务旨在识别文本所表达的情感色彩信息(例如,褒或者贬,支持或者反对)。该文提出一种基于情绪词的中文情感分类方法,使用大规模未标记数据和少量情绪词实现情感分类。具体来讲,首先使用情绪词从未标注数据中抽取高正确率的自动标注数据作为训练样本,然后采用半监督学习方法训练分类器进行情感分类。实验表明,该文提出的方法在产品评论与酒店评论两个领域的情感分类任务中取得了较好地分类效果。 代大明 王中卿 李寿山 李培峰 朱巧明关键词:情感分类 情绪词 非监督学习 基于机器学习方法的英文事件代词消解研究 被引量:2 2012年 与实体指代不同,事件指代因为其先行词候选是一个事件,与名词性的指代词具有完全不同的语义分类体系,因此适用于实体指代消歧的大多数特征都不能用于事件指代消歧。该文给出了一个基于机器学习方法的事件代词指代消歧平台,详细介绍了平台的实例生成和特征选择过程,并给出了平台在OntoNotes3.0语料上的事件代词指代消歧的结果,对结果进行了分析。从实验结果可以看到,给出的平台获得了较好的系统性能。 张宁 孔芳 李培峰 周国栋 朱巧明关键词:机器学习方法