国家自然科学基金(60873247) 作品数:52 被引量:354 H指数:9 相关作者: 刘培玉 朱振方 赵静 杨玉珍 李凤银 更多>> 相关机构: 山东师范大学 山东省分布式计算机软件新技术重点实验室 山东警察学院 更多>> 发文基金: 国家自然科学基金 山东省自然科学基金 国家社会科学基金 更多>> 相关领域: 自动化与计算机技术 经济管理 更多>>
基于速度增长的微博热点话题发现 被引量:17 2013年 在微博热点话题发现中,由于微博文本短、词量少、用词不规范等特征,使得传统的热点话题检测方法力不从心。针对这一问题,提出了基于速度增长的微博热点话题发现方法。首先把经过预处理的微博按等数量窗口划分,统计每个窗口内各词语的词频,并表示成时间二元组序列;然后通过计算每相邻两个窗口的个词语的增长斜率来发现增长速度快的词语;再通过计算与该词语有关的用户的增长速度和微博条数的增长速度来确定该词语是否是热点主题词;最后通过热点主题词聚类产生热点话题。通过实验验证了该方法的可行性。实验结果表明,该方法在一定程度上提高了检测效率,降低了漏检率和误检率,可以有效地及时发现微博热点话题。 薛素芝 鲁燃 任圆圆基于Map Reduce的序列模式挖掘算法 被引量:2 2012年 传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间。采用Reduce函数对中间结果进行规约,得到全局序列模式。在Hadoop集群上的实验结果表明,MR PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性。 刘栋 尉永清 薛文娟关键词:并行处理 MAP PREFIXSPAN算法 HADOOP平台 引入共享近邻加权图的Chameleon算法 被引量:6 2012年 针对Chameleon算法中采用距离函数度量数据点间的相似度,导致距离相近的两个点可能仅拥有很少的共同特征,最小二分实际操作困难,合并时需要人工指定阈值以及一旦合并完成后不能撤销的问题,对Chameleon算法进行改进,提出一种引入共享近邻加权图(WSnnG)的Chameleon算法。该算法以数据对象间的共享近邻数来衡量相似度,进一步构造WSnnG,再利用网络模块性评价函数指导最小二分,然后以结构等价相似度作为合并的依据,最后通过引入内聚度度量函数解决合并后不能撤销的问题。在UCI数据集及4个二维人造数据集上的实验结果表明,该算法在聚类精度和运行时间方面具有更好的效果。 薛文娟 刘培玉 刘栋基于双线性对的无证书签名与群签名方案 被引量:1 2011年 传统数字签名方案的证书存储和管理开销较大,基于身份的数字签名方案无法解决其固有的密钥托管问题,而无证书签名方案无需使用公钥证书,且没有密钥托管问题。为此,提出一个基于双线性映射的无证书签名方案,并在随机预言机模型下证明其安全性。在此基础上设计一个无证书群签名方案,其安全性建立在计算Diffie—Hellman问题的困难性假设上。性能分析表明,2种签名方案在保证安全性的前提下,具有较高的执行效率。 李凤银 刘培玉 朱振方关键词:无证书密码体制 群签名 双线性映射 随机预言机 应用特征项分布信息的信息增益改进方法研究 被引量:14 2009年 在特征项分布不平衡的情况下,传统信息增益算法的分类性能会急剧下降,针对此缺陷提出了一种利用特征项分布信息来改进信息增益公式的计算方法。通过计算特征项分布信息来判定特征项是否存在不平衡性,并利用此信息来平衡特征项不出现时对分类精度的影响。通过实验验证,改进后的计算方法整体上比传统的信息增益算法具有更好的性能。 杨玉珍 刘培玉 朱振方 邱烨关键词:信息增益 类内离散度 应用于入侵取证的改进信息增益算法 被引量:1 2011年 基于信息增益算法的特征选择虽然能够较好地解决入侵取证中存在的数据高维海量问题,但由于没有考虑特征之间的关系,导致特征子集中存在着冗余特征,从而影响了入侵取证的速度和精度,由此提出一种改进的基于特征冗余度的信息增益算法。通过添加对特征之间冗余度的判断,在删除无关特征的同时过滤了冗余特征,使特征子集得到有效精简。经实验验证,该算法能有效地选择特征向量,保证检测精度,提高检测速度。 贾娴 刘培玉 公伟关键词:入侵取证 信息增益 支持审计与取证联动的日志系统设计 被引量:7 2009年 目前国内外缺乏综合数据提炼能力的日志搜索和分析系统,也还没有专门同时为安全审计与计算机取证目的设计的日志保护和分析工具,针对这一现状,分析并提出了一种日志综合分析平台,以支持网络审计与计算机取证。描述了这种安全日志文件系统的构建、采集、管理和保护,可以做到审计与取证的联动分析,形成了一个高可信审计与取证能力的基本通用模型。最后给出了系统实现的界面和系统的性能分析。 宁兴旺 刘培玉关键词:主机日志 审计 计算机取证 基于LDA的新闻话题子话题划分方法 被引量:18 2013年 针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题间文本相似度较高的特点,引入主题特征词相关性分析,采用改进的KL距离公式,计算新闻文档之间相似度,有效区分了文档内容相似但话题重点不同的报道;最后通过single-pass增量聚类算法进行文档聚类,实现子话题划分.实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率. 赵爱华 刘培玉 郑燕关键词:KL距离 相似度计算 基于细分变异算子策略的遗传算法 被引量:1 2012年 针对基本遗传算法局部搜索能力不强以及早熟的问题,提出基于细分变异算子的遗传算法(Genetic Algorithm Based on Subdividing Mutation,SMSGA)。SMSGA将变异算子依据进化历程分成大步前进算子和最优调教算子。大步前进算子防止遗传早熟现象的发生;最优调教算子加强局部搜索的能力。同时,为加快算法收敛速度,对遗传操作实施策略进行优化,引入了路由选择操作。选用3个典型的测试函数在MATLAB平台中对该算法与基本遗传算法以及采用双变异率的改进遗传算法进行比较分析,结果表明,SMSGA可以有效的避免遗传算法中存在的局部搜索能力差和早熟现象的出现。 王乾龙 刘培玉关键词:遗传算法 精英保留 结合角点特征与SIFT特征的加速图像匹配 被引量:3 2012年 利用关键点寻找不同图像之间的一致性是很多图像处理和计算机视觉应用中的一个关键步骤。由于图像中巨量的关键点,因此特征的快速匹配成为了一个瓶颈。文中提出了一种对特征点进行分类比较的方法来加速特征匹配。首先可将SIFT特征分为两类,极大值SIFT特征和极小值SIFT特征;其次是将SIFT特征和传统角点特征相结合提取特征点并按照角点特征进行分类。实验表明,这种方法在保持原有鲁棒性和精度的情况下,可以较大提高特征匹配速度。 陈伟 刘丽关键词:尺度不变特征变换 角点特征