盛振华
- 作品数:6 被引量:5H指数:1
- 供职机构:浙江大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金浙江省科技计划项目浙江省重大国际科技合作项目更多>>
- 相关领域:自动化与计算机技术更多>>
- InfoSigs:一种面向WEB对象的细粒度聚类算法
- 面向WEB对象的细粒度聚类已经成为学术界研究的热点。然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,本文挖掘WEB文档中词汇间的树状概率...
- 盛振华吴羽江锦华寿黎但陈刚
- 文献传递
- 面向WEB对象的聚类技术研究
- 随着互联网和web2.0站点的迅猛发展,web对象的细粒度聚类技术已经成为学术界研究的热点。然而已有的绝大多数聚类模型只关注对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求,并且传统的...
- 盛振华
- 关键词:特征提取算法WEB对象聚类技术特征向量
- 文献传递
- InfoSigs:一种面向Web对象的细粒度聚类算法被引量:5
- 2010年
- 面向Web对象的细粒度聚类已经成为学术界研究的热点.然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,充分挖掘Web文档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对Web对象的细粒度聚类.算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录间的相似度,减少噪音对合并过程的影响.实验结果表明,InfoSigs算法比传统聚类算法—I-Match和Shingling—在F-Measure值上平均约有21.3%的提高,可以有效地运用到多领域Web对象的聚类问题.
- 盛振华吴羽江锦华寿黎但陈刚
- 关键词:WEB对象
- 搜索引擎中包含WEB对象的聚类方法
- 本发明公开了一种搜索引擎中包含WEB对象的聚类方法。通过挖掘词汇间的树状概率层次关系,计算词汇在数据集中的信息分布集中度,作为分辨对象的标志。该方法建立一个新型的信息传递有向无环图模型,准确提取数据中对辨别对象起到关键作...
- 陈珂陈刚寿黎但胡天磊盛振华
- 文献传递
- TrigSigs:一种有效的非结构化记录关联合并算法
- 2010年
- 为了解决从网络数据源提取的非结构化数据的处理问题,提出一种基于触发对的聚类算法TrigSigs,利用触发对挖掘非结构化数据中隐含属性间的关联关系作为辨别实体的标志.该算法能够聚集对辨别实体起到关键作用的特征组合,过滤噪音词汇,并且根据辨别实体的分辨力,为每个特征词汇赋予合理的权重,使记录的特征向量对辨别实体更具代表性,最终提高聚类结果的细粒度,很好地解决了非结构化数据的记录关联合并问题.实验结果表明:该算法可以过滤绝大部分噪音词汇,并且根据词汇的分辨力合理分配权重,使最终聚类结果的准确率有很大的提升.
- 吴羽盛振华寿黎但陈刚
- 关键词:非结构化数据
- InfoSigs:一种面向WEB对象的细粒度聚类算法
- 面向WEB对象的细粒度聚类已经成为学术界研究的热点。然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求。针对上述挑战,本文挖掘WEB文档中词汇间的树状概率...
- 盛振华吴羽江锦华寿黎但陈刚
- 关键词:信息检索
- 文献传递