湖南省自然科学基金(03JJY3095)
- 作品数:5 被引量:54H指数:3
- 相关作者:骆嘉伟王艳杨涛吴君浩张白妮更多>>
- 相关机构:湖南大学华为技术有限公司更多>>
- 发文基金:湖南省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于多维伪F统计量的基因表达动态聚类分析方法研究被引量:12
- 2006年
- K-均值聚类分析算法是一种广泛应用于基因表达数据聚类分析中的迭代变换算法,它通过指定类别数K,基于给定的聚类目标函数,并采用迭代更新的方法,使得最终的聚类结果的目标函数值为极小值,达到较优的聚类效果。针对K-均值聚类分析算法存在参数依赖性强,且在整个聚类过程中类的数目无法改变的缺点,引入动态调整聚类个数的思想和多维伪F统计量,提出了一种基于多维伪F统计量的基因表达动态K-均值聚类算法。实验结果表明该算法可以动态调整聚类个数,给出最佳聚类数目,从而获得较好的聚类质量。
- 骆嘉伟李仁发张白妮
- 关键词:聚类分析基因表达数据
- 基于马氏距离的缺失值填充算法被引量:31
- 2005年
- 提出了一种基于马氏距离的填充算法来估计基因表达数据集中的缺失数据。该算法通过基因之间的马氏距离来选择最近邻居基因,并将已得到的估计值应用到后续的估计过程中,然后采用信息论中熵值的概念计算最近邻居的加权系数,得到缺失数据的填充值。实验结果证明了该算法具有有效性,其性能优于其他基于最近邻居法的缺失值处理算法。
- 杨涛骆嘉伟王艳吴君浩
- 关键词:微阵列信息熵
- 基于分段与运算的基因表达数据频繁项集挖掘被引量:1
- 2006年
- 本文在研究分析经典关联规则挖掘算法优缺点以及基因表达数据特点的基础上,提出了一种立足于基因表达数据的数据特点,不生成候选项集的基于分段与运算的基因表达数据频繁项集挖掘算法。实验证明该算法能更快速有效地挖掘出频繁项集。
- 王艳骆嘉伟杨涛吴君浩
- 关键词:基因表达数据关联规则挖掘频繁项集
- 基于比对相似度动态矩阵聚类算法在基因序列中的应用被引量:3
- 2004年
- 基于BAG图的聚类算法 ,利用聚类单元引导类的分割 ,保证聚类结果不会产生过多的类碎片 ,但其相似分数阈值Cutoff初始值和最长公共子串最小长度阈值Threshold如何确定并没有明确给出。提出基于比对相似度动态矩阵的聚类算法 ,并在此基础上明确给出了确定cutoff初始值和Threshold阈值的方法。实验结果表明该算法可以获得较好的聚类正确率。
- 张白妮骆嘉伟汤德佑
- 关键词:生物序列聚类最长公共子串
- 一种结合完全连接的改进Apriori算法被引量:7
- 2006年
- 基于Apriori算法原理,提出一种有效的完全连接条件,在频繁2k项集的集合L2k进行自身Apriori连接得频繁(2k+1)项集的同时,自身完全连接产生未剪枝的候选4k项集;对频繁(2k+1)项集的集合L2k+1,直接对其项集进行完全连接产生未剪枝的候选(4k+2)项集。改进的算法减少了连接的比较次数、迭代运算次数。实验表明该算法在保证无遗漏的情况下有效地提高了Apriori算法的挖掘速度。
- 骆嘉伟王艳杨涛吴君浩
- 关键词:关联规则频繁项集