王建会
- 作品数:8 被引量:257H指数:5
- 供职机构:复旦大学信息科学与工程学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 自适应确定摘要长度被引量:5
- 2004年
- 随着信息技术的发展和信息量的大量增多 ,提出了很多自动摘要的算法 在这些众多的算法中 ,都有一个共同的现象———摘要的长度均需事先给定 然而 ,实际的情况是 ,随着信息样本的不同 ,该信息样本所包含的信息量也是不同的 为了能够全面地反映信息样本的主题思想 ,又不产生信息冗余 ,就要求根据具体信息样本 ,动态地确定与该样本信息量相适应的结果摘要长度 据此 ,提出了一种自适应于不同样本的、动态确定摘要长度的算法 ,从具体样本中循序渐进地抽取出其所包含的所有子主题 ,这些子主题的集合构成了该信息样本的主题思想 然后 ,再根据子主题的数量确定摘要的长度 ,既全面地反映了信息样本的内容 ,又不会产生信息冗余 另外 ,还提出了新的互依赖模型 ,使用该模型可以使切词的结果较为准确 ,并可有效地降维 。
- 王建会胡运发李荣陆
- 关键词:N-GRAM
- 基于互依赖和等效半径的文本分类方法(英文)
- 2007年
- 为了解决传统分类方法计算复杂度高及可扩展性差的问题,提出了互依赖和等效半径的概念,并将两者相结合,提出新的分类算法——基于互依赖和等效半径、易更新的分类算法IER.IER算法根据互依赖作为特征选择的量度,通过较长特征值的选择降低维度,通过重心和等效半径来建立分类模型.算法分析显示IER计算复杂度较低,扩展性能较好,适用于大规模场合.将IER算法应用于中文文本分类,并与kNN算法和类中心向量法进行比较,结果表明,在提高分类精度的同时,IER还可以大幅度提高分类速度,有利于对大规模信息样本进行实时在线的自动分类.
- 王洪伟伊磊王建会
- 关键词:向量空间
- 中文信息处理中若干关键技术的研究
- 随着科学技术的高速发展,以及各种资源数量的不断增多,为了提高效率,信息处理已经成为当前最重要的研究内容,其中涉及到切词和属性选择、信息抽取、自然语言理解、自动聚类和分类、自动摘要、自动标引和主题识别、信息结构分析、文本生...
- 王建会
- 关键词:信息处理信息抽取聚类子空间模式识别
- 文献传递
- 一种实用高效的聚类算法被引量:56
- 2004年
- 在信息处理研究领域,现有的大多数聚类算法都需要人为地给出一些参数.然而,在没有先验知识的情况下,人为地确定这些参数是十分困难的,而且现有的聚类算法的时空效率也有待于进一步提高.为了解决这一难题,首先根据样本分布特性,通过数学分析,得到确定样本空间划分间隔数的数学函数,然后,再根据样本分布特性,采用爬山的策略得到样本类的划分,最后提出了一种实用而高效的聚类算法.从多个角度分析了该算法的性能,并将该算法应用于中文文本聚类.理论分析和应用结果都表明,该算法不仅不需要人为确定参数,同时,还可以提高信息处理的时空效率和性能.
- 王建会申展胡运发
- 关键词:信息处理聚类子空间模式识别
- 一种实用高效的文本分类算法被引量:27
- 2005年
- 在模式识别研究领域已有的分类算法中,大多数都是基于向量空间模型的算法,其中使用范围最广的是kNN算法.但是,其中的大多数算法都因为计算复杂度太高而不适用于大规模的场合.而且,当训练样本集增大时都需要重新生成分类器,可扩展性差.为此,提出了互依赖和等效半径的概念,并将两者相结合,提出新的分类算法--基于互依赖和等效半径、易更新的分类算法SECTILE.SECTILE计算复杂度较低,而且扩展性能较好,适用于大规模场合.将SECTILE算法应用于中文文本分类,并与kNN算法和类中心向量法进行比较,结果表明,在提高分类精度的同时,SECTILE还可以大幅度提高分类速度,有利于对大规模信息样本进行实时在线的自动分类.
- 王建会王洪伟申展胡运发
- 关键词:向量空间
- 使用最大熵模型进行中文文本分类被引量:149
- 2005年
- 随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Bayes,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法.
- 李荣陆王建会陈晓云陶晓鹏胡运发
- 关键词:文本分类最大熵模型N-GRAM
- 词语间依存关系的定量识别被引量:4
- 2005年
- 本文扩展和改进了现有的词语间依存关系定量识别算法,充分考虑词项概率分布的影响;明确区分词项之间的搭配关系、并列关系和从属关系,针对它们不同的特点,提出不同的识别算法;提出字串匹配模型;充分考虑两个词项之间相互位置的离散分布和距离的影响、以及它们的概率分布特性,提出词项间的依存强度模型,并据此构建词语间依存关系树;提出更新策略,对已经建好的依存关系树进行裁剪,并挖掘出潜在的依存关系。应用实验结果表明,本文提出的算法可以有效地识别出词语间的依存关系。
- 王建会王雷胡运发
- 关键词:计算机应用中文信息处理词语搭配
- 基于聚类的自动摘要被引量:2
- 2004年
- 提出了一种基于题聚类的自动摘要算法.该算法在采用统计方法的同时.又适当结合知识理解,既摆脱了领域限制,也使摘要的结果更为准确.此外,为了能够全面反映信息样本的主要内容,而又不产生信息(?)余,本文提出的摘要算法还力图适应于不同的样本、动态确定摘要长度.为此.本文首先构造出新的互依赖模型,为摘要算法选择较为准确的属性.接着,挖掘出评估语句重要性的新规则.为摘要算法提供选择为重要语句的尺度.最后,提出了一种较为客观的、基于任务的摘要性能评估算法.
- 王建会周水庚胡运发
- 关键词:聚类信息检索