龙昊
- 作品数:2 被引量:9H指数:2
- 供职机构:华中科技大学计算机科学与技术学院计算机科学与工程系更多>>
- 发文基金:重庆市自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- R-means:以关联规则为簇中心的文本聚类被引量:5
- 2005年
- 本文将k-means与关联规则(或频繁项目集)相结合,提出了一种新的文本聚类算法R-means。R-means算法以关联规则作为簇中心,通过类似于k-means的迭代优化得到最终的簇。因此R-means不仅继承了k-means的简单性,而且用关联规则产生的簇描述易于为人们所理解。在几个实际数据集上的实验表明该算法可以得到高精度和高性能。
- 龙昊冯剑琳李曲
- 关键词:关联规则频繁项目集信息检索
- SAT-TC:基于关联的层次文档聚类被引量:4
- 2004年
- 在一篇文档中,一个单词可以看作是一个项目,一组单词就是一个项目集。在以往的基于关联的文本聚类方法中,都是将一整篇文档看作是一个事务来挖掘频繁项目集和关联规则的。但是实际上,一篇文档中的基本语义单位是句子。在同一个句子中同时出现的一组词在语义上或多或少都是相互关联的,与分布在多个句子中的同一组词相比,前者要有意义得多。因此,基于以上发现,我们考虑将文档中的每一个句子看作是一个事务。一篇文档就被看作是一个事务的集合,并由此提出了一种新的文本聚类方法:SAT—TC。通过在标准测试集上的实验证明,SAT-TC要优于传统的文本聚类算法。
- 李曲龙昊
- 关键词:频繁项目集聚簇