您的位置: 专家智库 > >

国家高技术研究发展计划(2006AA01Z230)

作品数:4 被引量:105H指数:4
相关作者:彭京唐世渭杨冬青唐常杰乔少杰更多>>
相关机构:北京大学成都市公安局四川大学更多>>
发文基金:中国博士后科学基金国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇期刊文章
  • 4篇会议论文

领域

  • 8篇自动化与计算...

主题

  • 2篇相似度
  • 2篇内积
  • 2篇内积空间
  • 2篇聚类
  • 2篇聚类算法
  • 2篇可扩展
  • 2篇积空间
  • 2篇概念相似度
  • 1篇多基因
  • 1篇页面
  • 1篇预处理
  • 1篇数据挖掘
  • 1篇文本聚类
  • 1篇文本聚类算法
  • 1篇向量
  • 1篇向量空间
  • 1篇路径查询
  • 1篇进化算法
  • 1篇决策树
  • 1篇可扩展标记语...

机构

  • 8篇北京大学
  • 3篇成都市公安局
  • 2篇四川大学
  • 2篇教育部
  • 1篇北京师范大学

作者

  • 6篇杨冬青
  • 4篇王腾蛟
  • 4篇彭京
  • 3篇唐世渭
  • 3篇高军
  • 2篇乔少杰
  • 2篇唐常杰
  • 1篇朱明放
  • 1篇程温泉
  • 1篇付艳
  • 1篇蒋汉奎
  • 1篇孙勇义
  • 1篇杨碧姗
  • 1篇石葆梅
  • 1篇元昌安
  • 1篇许世峰
  • 1篇常雷
  • 1篇付艳

传媒

  • 3篇计算机学报
  • 1篇中国科学:信...
  • 1篇第二十五届中...

年份

  • 2篇2009
  • 2篇2008
  • 4篇2007
4 条 记 录,以下是 1-8
排序方式:
一种更新友好的基于分数的XML编码方法
由于XML已经成为网络环境中数据表示和交换的标准,如何实现高效的XML查询处理就尤为重要。目前XML区间编码是一种重要的编码方式,但是区间编码不适合XML数据频繁的更新。针对这一问题,基于XML树的结构,提出了一种利用分...
孙勇义高军王腾蛟杨冬青
关键词:可扩展标记语言XML更新
文献传递
一种基于语义内积空间模型的文本聚类算法被引量:58
2007年
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好.
彭京杨冬青唐世渭付艳蒋汉奎
关键词:内积空间文本聚类概念相似度
基于穿行次数的大规模图数据路径查询
在涉及复杂图数据的场景中,图的距离查询和路径查询有着重要的应用。有些应用涉及到规模巨大的图,并且需要快速的查询响应。在本论文中,我们从图中节点的重要性出发,提出了度量节点重要性的量化方法:"穿行次数";并基于穿行次数为节...
许世峰高军杨冬青王腾蛟
关键词:预处理
文献传递
基于XPath的Web页面自动清洗算法
针对Web页面中包含大量噪声信息的问题,提出了一种基于页面布局及XPath技术的自动清洗算法.算法首先对样本页面划分形成的内容块进行有效性判定,将相似内容块在页面集中的位置信息归纳为公共XPath,再基于公共XPath识...
付艳杨冬青唐世渭王腾蛟高军
关键词:DOMXPATH
文献传递
BICA:一种快速可扩展的ADTree构建算法
ADTree是一种基于boosting的决策树学习算法,其预测准确率比一般决策树高并可以给出预测置信度,在实际中有广泛的应用.已有的ADTree构建算法能有效地处理小规模数据,但对于大规模数据的处理非常低效.因此提出了一...
杨碧姗王腾蛟常雷杨冬青唐世渭
关键词:决策树
文献传递
基于概念相似度的文本相似计算被引量:17
2009年
根据概念相似信息,文中提出了一种新的文本相似度计算方法.新方法首先将文本转换为词向量空间模型,然后将词分解为概念集合,通过计算概念间的内积空间,得到词之间的相似度,最后根据词之间的相似度,计算文本相似性.文中的主要工作包括:1)提出了一种新的词相似度计算公式;2)提出了一种新的基于词相似度的文本相似计算方法;3)成功的将该方法应用到WEB新闻相似查询中;4)通过实验证明算法的有效性.
彭京杨冬青唐世渭王腾蛟高军
关键词:概念相似度向量空间内积空间
基于重叠表达的多基因进化算法被引量:17
2007年
受生物基因片段重叠表达现象的启发,文中提出了一种新的基于重叠表达进化算法——MEOE(Multigene Evolutionary algorithm based on Overlapped Expression).文章具体描述了MEOE的基因表达结构及相应的算法.不同于已有的工作,在MEOE中作为遗传物质的基因具有重复表达的概率,同时算法融合了免疫算法关于浓度的计算技术.文章对MEOE算法作了较为全面的分析,讨论了算法在表达空间、可表达性、性状遗传上的特点,并与传统算法作了相应比较.详尽的实验证明,MEOE算法在速度上是GEP的2.5~9.4倍.在高次函数发现问题上MEOE算法的成功率比GEP提高至少一个数量级.另外,通过实验证明了基于密度的概率选择函数在高次函数发现问题上具有一定优势.
彭京唐常杰元昌安朱明放乔少杰
关键词:基因表达式编程进化算法
一种基于层次距离计算的聚类算法被引量:15
2007年
针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing based clustering Algo-rithm).新方法克服了传统聚类算法标称型计算的缺陷,提高了聚类精度.针对聚类算法的中心点问题,提出了相应的层次编码型数据的快速处理算法,并从理论上证明了算法的正确性.实验表明,对比朴素处理算法,HDCA的性能明显提高.新算法已经应用到警用流动人口分析当中,取得了良好效果.
彭京唐常杰程温泉石葆梅乔少杰
关键词:聚类数据挖掘
共1页<1>
聚类工具0