叶振超
- 作品数:3 被引量:79H指数:2
- 供职机构:浙江大学计算机科学与技术学院更多>>
- 发文基金:中央高校基本科研业务费专项资金国家自然科学基金中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于MapReduce的分布式近邻传播聚类算法被引量:54
- 2012年
- 随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间.
- 鲁伟明杜晨阳魏宝刚沈春辉叶振超
- 关键词:近邻传播聚类分布式计算MAPREDUCE数据划分聚类融合
- CADAL中国文学编年史系统的设计与实现
- 中国有着数千年的文明史,古代、近代和当代文学作品浩如烟海。但随着时间的迁移,很多著作名篇、文化大家遗失在历史长河中。面对如恒河沙数的典籍文献,进一步的保护、整理和研究工作也变得非常复杂和浩繁。因此,借助于信息技术进行文学...
- 叶振超
- 关键词:数字图书馆信息抽取地理信息系统多媒体处理
- 一种基于稀疏典型性相关分析的图像检索方法被引量:23
- 2012年
- 图像语义检索的一个关键问题就是要找到图像底层特征与语义之间的关联,由于文本是表达语义的一种有效手段,因此提出通过研究文本与图像两种模态之间关系来构建反映两者间潜在语义关联的有效模型的思路.基于该模型,可使用自然语言形式(文本语句)来表达检索意图,最终检索到相关图像.该模型基于稀疏典型性相关分析(sparse canonical correlation analysis,简称sparse CCA),按照如下步骤训练得到:首先利用隐语义分析方法构造文本语义空间,然后以视觉词袋(bag of visual words)来表达文本所对应的图像,最后通过Sparse CCA算法找到一个语义相关空间,以实现文本语义与图像视觉单词间的映射.使用稀疏的相关性分析方法可以提高模型可解释性和保证检索结果稳定性.实验结果验证了Sparse CCA方法的有效性,同时也证实了所提出的图像语义检索方法的可行性.
- 庄凌庄越挺吴江琴叶振超吴飞
- 关键词:图像检索文本语义视觉单词