李珊
- 作品数:3 被引量:5H指数:1
- 供职机构:青岛科技大学数理学院更多>>
- 发文基金:山东省高等学校科技计划项目山东省自然科学基金国家自然科学基金更多>>
- 相关领域:生物学更多>>
- 基于集成学习的人类LncRNA大数据基因预测被引量:1
- 2018年
- 长非编码RNA(LncRNA)在表观遗传调控、转录后调控和人类疾病中发挥着重要作用,利用机器学习方法从海量的RNA数据中识别出LncRNA十分必要。本研究提出一种基于集成学习的LncRNA大数据基因预测新方法。首先提取序列碱基出现频率的86个特征作为原始特征集合,其次,基于GA-SVM选取出最优特征,以SVM五折交叉验证的准确率作为适应度,最后构建AdaBoost算法与SVM相结合的基因预测模型(AdaBoost-SVM)。实验结果表明:AdaBoost-SVM模型对测试集LncRNA的预测准确率为89.26%,优于RF、SVM和DWT-SVM3种预测模型的结果。
- 于彬李珊陈成陈瑞欣田保光
- 关键词:基因预测ADABOOST算法支持向量机
- 基于支持向量机的人类ncRNA基因预测被引量:1
- 2017年
- 提出一种新的基于支持向量机的人类ncRNA基因预测方法。首先从GENCODE数据库和UCSC数据库中提取人的ncRNA和mRNA序列数据,选择单核苷酸、二核苷酸出现频率等86个特征作为原始数据,其次利用离散小波变换去除冗余信息和噪声,最后建立离散小波变换与支持向量机相结合的ncRNA基因预测模型(DWT-SVM)。实验结果表明DWTSVM模型对测试集ncRNA的预测准确率为93.71%,优于PCA-SVM和DWT-KNN两种预测模型的预测结果。
- 于彬陈成刘健李珊陈瑞欣
- 关键词:非编码RNA基因预测支持向量机离散小波变换
- 基于SVM的肿瘤特征基因提取与基因表达数据分析被引量:3
- 2016年
- 提出一种基于支持向量机的肿瘤基因表达谱数据挖掘方法。首先采用信噪比方法对白血病、结肠癌、肺癌数据提取特征基因,生成特征基因子集。然后通过支持向量机分类模型对特征基因子集进行机器学习训练分类。实验结果表明:急性白血病、结肠癌只需4个特征基因,均获得100%的10折交叉验证分类准确率。最后为了有效地排除噪声基因进而挑选出精确度更高的分类特征基因,采用多尺度小波阈值法对肺癌数据进行降噪处理,降噪后仅需5个特征基因获得96.61%的分类准确率。
- 谭云于彬王琦然王学敏李珊邱文莹
- 关键词:基因表达谱肿瘤分类特征基因