国家自然科学基金(60703105) 作品数:6 被引量:14 H指数:2 相关作者: 王淼 尚学群 缪苗 刘加财 孟雅 更多>> 相关机构: 西北工业大学 更多>> 发文基金: 国家自然科学基金 西北工业大学基础研究基金 陕西省自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
从基因表达数据中挖掘最大的行常量双聚类 被引量:5 2011年 双聚类方法是当前分析基因表达数据的一个重要研究方向,其挖掘目标是发现哪些基因在哪些实验条件下具有相似的表达水平或者关系密切。目前已提出了许多双聚类算法来挖掘不同类型的双聚类,然而其大部分挖掘效率不高。鉴于此,提出了一个新颖的挖掘算法———MRCluster,其主要是用来从原始的基因表达数据中挖掘最大的行常量双聚类模式。就其挖掘效率来说,它采用的是基于Apriori原则的基因扩展深度优先的挖掘策略,并且在挖掘过程中引入了一些新颖的剪枝技术来提高效率。将MRCluster和一个行常量双聚类模式挖掘方法 RAP(range support pattern)算法进行比较,从实验结果上可以看出,相比RAP算法,MRCluster算法对在原始的基因表达数据中挖掘最大的行常量双聚类模式具有更好的效率。因此,MRCluster算法能够有效地从原始的基因表达数据中挖掘最大的行常量双聚类。 缪苗 尚学群 刘加财 王淼关键词:基因芯片 一种衡量基因语义相似度的新方法 被引量:2 2011年 提出了一种新的方法来衡量基因之间的语义相似度。本方法的主要原则是同时依赖于GO拓扑结构图中基因注释项之间的路径长度和基因注释项的公共祖先节点在GO拓扑结构图中的深度。用人工数据和取自酵母基因数据库的基因数据进行了实验,结果表明本方法比传统方法更有效。 张少华 尚学群 王淼基于不确定PPI网络的功能模块挖掘 2011年 近年来,挖掘具有生物学意义的功能模块,吸引了很多人的关注。但是,生物信息学中的蛋白质交互(PPI)网络和其他的一些生物数据常常会由于实验检测方法的局限性而呈现出不确定性。以具有不确定性的PPI数据为研究对象,挖掘蛋白质复合物。引入了一些新概念,并给出了一个深度优先算法。使用MIPS数据库评估实验结果表明,该算法在精确度和覆盖率两个方面性能优良。在基因拓扑上分析实验结果证实了所得到的大多数蛋白质复合物具有很高的相似性。最后也对算法的可扩展性进行了验证。总之,可以有效地从不确定PPI网络中挖掘出功能模块。 孟雅 尚学群 缪苗 王淼关键词:功能模块 相关度 基于权值图的基因芯片数据差异双聚类挖掘算法 被引量:2 2011年 研究了从基因芯片中挖掘差异双聚类的算法。差异双聚类中的基因在不同类别的数据中表达水准不同,这样的差异双聚类可以有效地找出影响基因表达水平的关键实验因素以及对实验条件敏感的基因。传统的双聚类方法采取分别在两类基因数据中找出聚类,再进行比较以得到最终的差异双聚类,该策略的时间效率不高。为了快速地找出差异双聚类,提出一个全新的基于权值图的差异双聚类方法,该方法的主要创新之处在于直接在由两类数据构成的权值图上挖掘双聚类,避免了分别挖掘再比较的步骤。实验结果证实该算法具有较高的运行效率。 刁静霓 尚学群 王淼 缪苗关键词:聚类 子空间聚类 基于不确定性PPI网络的最大稠密子图挖掘 被引量:1 2011年 研究表明使用PPI数据进行蛋白质功能预测是很有意义的。然而,从生物学实验得到的PPI数据一般是含有噪声的、不完全的和不精确的,这使得将PPI网络作为不确定图来处理变得更加合理。提出了一种基于深度优先搜索策略和点扩展的挖掘算法,它可以有效地从不确定的PPI网络中挖掘最大稠密子图。该算法使用了几种高效的剪枝技术来提高挖掘的时间效率。在酵母菌PPI数据上的实验结果表明该算法在精度和效率上都有很好的表现。 刘加财 尚学群 孟雅 王淼关键词:PPI网络 解决数据样本不平衡性的频繁子图挖掘算法 被引量:5 2008年 传统的图挖掘算法应用到生物数据上有其局限性。根据生物网络的特性,通过引入相对支持度的概念,提出了一种解决数据样本间不平衡性的频繁子图挖掘算法——IFS算法。通过对真实的蛋白质互作网络进行处理,证明该算法是可行的。 谢玓 尚学群 王淼 张延园