浙江省重大国际科技合作项目(2008C14060)
- 作品数:1 被引量:5H指数:1
- 相关作者:陈刚盛振华江锦华吴羽寿黎但更多>>
- 相关机构:浙江大学更多>>
- 发文基金:浙江省重大国际科技合作项目国家自然科学基金浙江省科技计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- InfoSigs:一种面向Web对象的细粒度聚类算法被引量:5
- 2010年
- 面向Web对象的细粒度聚类已经成为学术界研究的热点.然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,充分挖掘Web文档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对Web对象的细粒度聚类.算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录间的相似度,减少噪音对合并过程的影响.实验结果表明,InfoSigs算法比传统聚类算法—I-Match和Shingling—在F-Measure值上平均约有21.3%的提高,可以有效地运用到多领域Web对象的聚类问题.
- 盛振华吴羽江锦华寿黎但陈刚
- 关键词:WEB对象