您的位置: 专家智库 > >

付艳

作品数:4 被引量:63H指数:2
供职机构:北京大学信息科学技术学院高可信软件技术教育部重点实验室更多>>
发文基金:国家自然科学基金国家高技术研究发展计划中国博士后科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 1篇学位论文
  • 1篇会议论文

领域

  • 4篇自动化与计算...

主题

  • 3篇聚类
  • 2篇文本聚类
  • 1篇新闻
  • 1篇新闻报
  • 1篇新闻报道
  • 1篇信息服务
  • 1篇信息服务机制
  • 1篇页面
  • 1篇增量聚类
  • 1篇主题检测
  • 1篇文本聚类算法
  • 1篇相似度
  • 1篇内积
  • 1篇内积空间
  • 1篇聚类算法
  • 1篇后缀树
  • 1篇后缀树聚类
  • 1篇基于语义
  • 1篇积空间
  • 1篇概念相似度

机构

  • 4篇北京大学
  • 1篇成都市公安局

作者

  • 4篇付艳
  • 3篇杨冬青
  • 2篇唐世渭
  • 1篇王腾蛟
  • 1篇蒋汉奎
  • 1篇伍伟
  • 1篇彭京
  • 1篇高军

传媒

  • 1篇北京大学学报...
  • 1篇计算机学报
  • 1篇第二十五届中...

年份

  • 1篇2009
  • 2篇2008
  • 1篇2007
4 条 记 录,以下是 1-4
排序方式:
一种基于语义内积空间模型的文本聚类算法被引量:58
2007年
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好.
彭京杨冬青唐世渭付艳蒋汉奎
关键词:内积空间文本聚类概念相似度
基于XPath的Web页面自动清洗算法
针对Web页面中包含大量噪声信息的问题,提出了一种基于页面布局及XPath技术的自动清洗算法。算法首先对样本页面划分形成的内容块进行有效性判定,将相似内容块在页面集中的位置信息归纳为公共XPath,再基于公共XPath识...
付艳杨冬青唐世渭王腾蛟高军
关键词:DOM
文献传递
基于实体识别的在线主题检测方法被引量:5
2009年
为提高在线主题的检测效率,作者提出了一种基于实体识别技术的在线主题检测方法,利用新闻报道中的命名实体快速判断新到达报道与历史主题的关系,从而减少对报道间文本相似度的计算。实验结果显示,本文提出的方法能够在不牺牲检测准确率的基础上,显著提高在线主题检测的效率。
付艳杨冬青唐世渭伍伟王腾蛟高军
关键词:增量聚类后缀树聚类
Web新闻的主题检测方法研究
如今,Web已经成为信息量最大、应用范围最广的传播媒体。但面对着Web中的海量数据,人们依然无法解决知识匮乏的问题。Web新闻的主题检测研究为人们提供了一种由数据管理向知识管理转变的方法,它以媒体信息流为处理对象,将信息...
付艳
关键词:WEB新闻主题检测信息服务机制新闻报道文本聚类
共1页<1>
聚类工具0