俞晓明
- 作品数:13 被引量:71H指数:3
- 供职机构:中国科学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于假设流量的Deltoid算法阈值设定
- 2008年
- Deltoid算法是检测数据流变化的有效算法,但以现有方法为其设定检测阈值须额外增加工作空间和在线操作量。该文提出基于假设流量的阈值设定算法DTSUHT,无需增加工作空间,只需进行离线操作。基于真实网络数据的实验结果表明,用DTSUHT设定阈值,Deltoid算法可得到与现有阈值设定方法相似的性能。
- 俞晓明许洪波
- 关键词:数据流
- 一种基于网页块特征的多级网页聚类方法被引量:1
- 2015年
- 利用网页的结构特征,提出一种多级网页聚类方法。该方法首先对网页进行分块,然后使用网页的块特征对网页进行聚类。在聚类过程中,通过调整阈值,能够提供三级聚类:同站点网页聚类、同站点同结构网页聚类、同站点同结构同模板网页聚类。与已有的网页聚类方法相比较,该方法能够提供多级聚类结果,满足不同的聚类需求,而且在聚类的准确率和效率方面有本质上的提高。
- 范意兴郭岩李希鹏赵岭刘悦俞晓明程学旗
- 关键词:网页分块网页聚类DOM
- FPC:大规模网页的快速增量聚类被引量:3
- 2016年
- 面向结构相似的网页聚类是网络数据挖掘的一项重要技术。传统的网页聚类没有给出网页簇中心的表示方式,在计算点簇间和簇簇间相似度时需要计算多个点对的相似度,这种聚类算法一般比使用簇中心的聚类算法慢,难以满足大规模快速增量聚类的需求。针对此问题,该文提出一种快速增量网页聚类方法FPC(Fast Page Clustering)。在该方法中,先提出一种新的计算网页相似度的方法,其计算速度是简单树匹配算法的500倍;给出一种网页簇中心的表示方式,在此基础上使用Kmeans算法的一个变种MKmeans(Merge-Kmeans)进行聚类,在聚类算法层面上提高效率;使用局部敏感哈希技术,从数量庞大的网页类集中快速找出最相似的类,在增量合并层面上提高效率。
- 余钧郭岩张凯刘林刘悦俞晓明程学旗
- 基于逐点互信息的查询结构分析被引量:3
- 2012年
- Web搜索引擎中,对用户查询结构的有效分析,能更好地理解用户的查询意图,促进检索效果的提升。该文提出了一种简单高效的基于逐点互信息的查询结构分析方法,该方法包含了基于MapReduce的离线训练算法,以及一种自下向上的在线查询树构建算法。实验显示,该方法具有很高的切分速度,并能取得不错的可比较的切分效果。进一步的,该方法对检索性能的提升,也有明显的促进作用,在MAP,p@5,p@10评价指标上,都取得了不错的性能提升。
- 朱亚东张成俞晓明程学旗
- 关键词:MAPREDUCE
- TCP/IP协议处理中的缓冲区优化及实现被引量:3
- 2006年
- 针对应用层协议处理遇到的问题,提出了一种基于属性标识的缓冲区优化策略。该方法通过减少缓冲区操作的盲目性,可以基本消除各处理模块间缓冲区匹配所引起的数据复制,提高了系统性能;同时,该方法可以支持系统执行期间应用层协议处理通路的动态改变,提高了系统的灵活性。在基于内容的网络安全系统上实现了该方法,证实了方法的有效性。
- 俞晓明郭莉
- 关键词:协议栈零拷贝
- 基于查询性能预测的鲁棒检索排序研究
- 2016年
- 信息检索技术致力于从海量的信息资源中为用户获取所需的信息。相较于传统的简单模型,近些年来的大量研究工作在提升了检索结果平均质量的同时,往往忽略了鲁棒性的问题,即造成了很多查询的性能下降,导致用户满意度的显著下降。本文提出了一种基于排序学习的查询性能预测方法,针对每一个查询,对多种模型得到的检索结果列表进行预测,将其中预测性能最优的检索结果列表展示给用户。在LETOR的三个标准数据集OHSUMED、MQ2008和MSLR-WEB10K上的一系列对比实验表明,在以经典的BM25模型作为基准的情况下,与当前最好的检索模型之一LambdaMART相比,该方法在提升了检索结果平均质量的同时,显著地减少了性能下降的查询的数量,具备较好的鲁棒性。
- 薛源海俞晓明刘悦关峰程学旗
- 大规模短文本的不完全聚类被引量:39
- 2011年
- 聚类分析是数据挖掘的一个重要手段,人们可以通过聚类发现信息中潜在的热点或规律。至今,已经有大量聚类算法被研究和提出。随着互联网的日益普及,查询日志、Twitter等短文本信息逐渐在人们生活中起着越来越重要的作用。这类短文本信息数量巨大,通常可达到千万乃至亿级,现有的聚类算法在对这类大规模短文本信息进行聚类分析时往往显得异常无力。该文通过对实际应用中的短文本信息进行实验分析,发现了这类数据类别所具有的"长尾现象",并由此提出了不完全聚类思想,可以有效地提高这类短文本信息的聚类性能。
- 彭泽映俞晓明许洪波刘春阳
- 关键词:聚类分析
- 多文档短摘要生成技术研究被引量:2
- 2019年
- 自动摘要技术用于将较长篇幅的文章压缩为一段较短的能概括原文中心内容的文本。多文档冗余度高,电子设备所展示的空间有限,成为摘要发展面临的挑战。本文提出融合图卷积特征的句子粗粒度排序方法。首先将句子之间的相似度矩阵视为拓扑关系图,对其进行图卷积计算得到图卷积特征。然后通过排序模型融合图卷积特征以及主流的抽取式多文档摘要技术对句子进行重要度排序,选取排名前四的句子作为摘要。最后提出基于Seq2seq框架的短摘要生成模型:①在Encoder部分采用基于卷积神经网络(CNN)的方法;②引入基于注意力的指针机制,并将主题向量融入其中。实验结果表明,在本文场景下,相较于循环神经网络(RNN),在Encoder部分基于CNN能够更好地进行并行化,在效果基本一致的前提下,显著提升效率。此外,相较于传统的基于抽取和压缩的模型,本文提出的模型在ROUGE指标以及可读性(信息度和流利度)方面均取得了显著的效果提升。
- 张随远薛源海俞晓明俞晓明刘悦
- 关键词:多文档
- 中文微博客的垃圾用户检测被引量:9
- 2014年
- 微博客的出现改变了我们获取信息的方式。然而,大量垃圾消息却此起彼伏,危害着微博的健康发展。该文研究了中文微博客中的垃圾用户检测问题。我们首先对垃圾用户的行为进行了分析,提出了基于用户图、用户资料、微博内容的3大类7种检测特征。随后,讨论了基于SVM分类器的垃圾用户检测方法。最后,我们对采集的微博数据进行了标注,并评价了分类器的效果。实验表明:分类器具有较高的准确率和召回率,该文提出的特征具有较好的区分度。
- 李赫元俞晓明刘悦程学旗程工
- 针对开源论坛网页的信息抽取研究被引量:11
- 2017年
- 互联网上大量论坛使用开源软件生成,针对这类论坛,提出了针对论坛网页信息抽取的基于模板的信息抽取方法。首先给出了基于网页结构相似度的簇划分策略,并通过实验证明了该策略优于直接基于软件版本号等直观类别的划分策略;其次提出了基于开源软件特征的聚类算法,能够根据网页相似度将大规模开源软件生成的论坛网页进行有效的自动划分,形成可标注类别。实验表明,该方法不仅保持了基于模板的抽取方法所具有的高准确率的优点,同时弥补了其模板配置与维护代价高的缺点。
- 刘春梅郭岩俞晓明赵岭刘悦程学旗
- 关键词:网页聚类