国家教育部博士点基金(20124320110002)
- 作品数:10 被引量:10H指数:2
- 相关作者:袁哲明陈渊代志军王志明谭泗桥更多>>
- 相关机构:湖南农业大学湖南省作物种质创新与资源利用重点实验室中山大学更多>>
- 发文基金:国家教育部博士点基金湖南省自然科学杰出青年基金长沙市科技计划项目更多>>
- 相关领域:生物学农业科学环境科学与工程医药卫生更多>>
- 芳香羧酸衍生物驱避剂的非线性定量构效关系被引量:1
- 2014年
- 【目的】驱避剂可使害虫不敢接近受用者从而保护受用者免遭其害。建立高精度、可解释性强的非线性定量构效关系(quantitative structure-activity relationship,QSAR)模型对设计合成新的高效昆虫驱避剂有重要意义。【方法】基于37个芳香羧酸类化合物对家蝇Musca domestica的驱避活性,以量子化学计算软件PCLIENT获取每一化合物初始描述符,以二元矩阵重排过滤器、多轮末尾淘汰实施特征非线性筛选,以支持向量回归(support vector regression,SVR)建立非线性QSAR模型,以SVR非线性解释体系分析各保留描述符对驱避活性的影响。【结果】1 542个初始描述符的SVR模型F=1.2,特征筛选后6个保留描述符的SVR模型F=184.6,特征筛选对QSAR模型精度有重要影响。6个保留分子描述符的重要性依次为p4BCD>GATS7v>T(O..O)>JGI8>SssO>nArCONR2。【结论】保留描述符与芳香羧酸类化合物对家蝇驱避活性的非线性关系明显,获得了高精度、普适性强的非线性SVR-QSAR模型。
- 李颗李向辉徐西林袁哲明
- 关键词:驱避剂家蝇非线性定量构效关系支持向量回归
- 基于特征选择和支持向量机的HIV-1型蛋白酶剪切位点预测
- 2017年
- 为了提高HIV-1型蛋白酶剪切位点的预测准确性,提出一种基于特征选择和支持向量机的剪切位点预测模型。首先,通过对5830个样本的HIV-1型蛋白酶剪切位点数据集进行分析,根据最小冗余最大相关理念,采用可自动终止法选择剪切位点的特征向量;然后,将特征向量输入到支持向量机进行学习和训练,建立HIV-1型蛋白酶剪切位点的分类模型;最后,采用Matlab 2014的仿真工具箱进行仿真测试。实验结果表明:本文模型在特征最少的条件下,剪切位点预测精度优于参比模型及文献报道,且所选择的特征向量具有较好的可解释性及生物学意义。
- 袁哲明张弘杨陈渊
- 关键词:生物物理学支持向量机
- 基于MADS-box诱饵与蛋白质相互作用的拟南芥花瓣发育分子网络拓展被引量:1
- 2015年
- 阐明花器官发育调控机理具重要的进化、发育和生态学意义。该文以拟南芥(Arabidopsis thaliana)花瓣发育为例,整合蛋白质互作、亚细胞定位、基因芯片和基因功能注释等数据库,通过组建蛋白质互作可信预测模型,获得拟南芥花瓣蛋白质互作网络,以含有MADS-box结构域蛋白为诱饵在网络中进行一级拓展,得到含38个蛋白质和67对互作的拓展网络。基于拓展网络,DAVID基因功能注释表明,多数蛋白质涉及的生物学过程与花发育调控相关;提取到19个候选四元互作,涉及ABCDE模型基因之外的8个基因,其中含MADS-box结构域的AGL16可能是B类基因新成员或其冗余;SEU、LUH、CHR4、CHR11、CHR17和AT3G04960为拟南芥花瓣AP1-AP3-PI-SEP四聚体的候选靶标基因。研究结果为深入解析拟南芥花瓣发育分子调控网络奠定了基础。
- 杨黎孙丛苇代志军何淼袁哲明
- 关键词:拟南芥MADS-BOX蛋白质相互作用
- 基于序列特征筛选与支持向量回归预测蛋白质折叠速率被引量:1
- 2014年
- 折叠速率预测对阐明蛋白质折叠机理意义重大.本文收集了115条目前已知折叠速率的蛋白质样本(包括二态、多态和混态蛋白),为了较全面地表征蛋白质分子的一级结构信息,提取序列长度、氨基酸残基多尺度组分、成对残基k-space特征与基于残基物理化学性质的地统计学关联总共9357维特征.经改进的二元矩阵重排过滤器和多轮末尾淘汰非线性筛选,获得23个物理化学意义明确的保留特征,建立的非线性支持向量回归模型Jackknife交叉验证的相关系数R=0.95,优于文献报道及其他参比特征选择方法.支持向量回归解释体系表明折叠速率与保留描述符的非线性回归极显著,分析了各保留描述符对折叠速率的影响,结果表明蛋白质折叠速率与序列长度、中短程关联特征、三联体残基组份特征等密切相关.
- 李咏周玮代志军陈渊王志明袁哲明
- 关键词:蛋白质折叠支持向量回归
- 基于三类特征融合的O-糖基化位点预测被引量:1
- 2016年
- 糖基化是蛋白质翻译后的主要修饰,O-糖基化的固定模式未知,高精度识别O-糖基化位点是机器学习面临的挑战性问题.以迄今最大的人O-糖基化位点Steentoft数据集为基础,本文首次提出了基于位置的卡方差表特征χ^2pos,融合伪氨基酸序列进化信息Pse PSSM以及无方向的k间隔氨基酸对组分Undirected-CKSAAP表征序列,构建5个正负样本均衡的支持向量机分类器,经加权投票,独立测试准确率、Matthew相关系数及ROC曲线下面积,分别达到了89.62%、0.79、0.96,明显优于文献报道结果.χ^2pos、Pse PSSM与Undirected-CKSAAP三种特征的融合在蛋白质糖基化、磷酸化等位点预测中有广泛应用前景.
- 向妍陈渊谭泗桥袁哲明
- 醇酚类化合物毒性的QSAR研究被引量:3
- 2016年
- 化合物毒性与描述符通常呈现为非线性关系,量子化学计算的化合物分子描述符中包含诸多无关特征与冗余特征.最大相关最小冗余(m RMR)是应用较广泛的特征选择方法,但当前的m RMR对连续型因变量不适用,且存在相关性测度与冗余性测度不可比的缺陷.定量构效关系(QSAR)研究中因变量(毒性)与自变量(描述符)多为连续型变量,本文以非线性的距离相关系数(d Cor)取代线性的Pearson相关系数(R),在非线性条件下实现了相关性测度与冗余性测度可比,由此提出了新的特征选择方法 m RMR-d Cor.3个醇酚类化合物毒性QSAR数据集的分析表明,基于m RMR-d Cor选择特征的支持向量回归(SVR)模型独立预测Q2分别为0.954、0.941、0.981,明显优于参比模型与文献报道,m RMR-d Cor选择的多数保留分子描述符得到文献报道支持.m RMR-d Cor在化合物QSAR、定量构质关系等研究中有广泛应用前景.
- 邓小龙陈渊谭泗桥袁哲明
- 关键词:定量构效关系支持向量回归
- 全文增补中
- 基于高维特征非线性筛选的HLA-A*0201限制性CTL表位预测被引量:2
- 2013年
- 高活性细胞毒T细胞(CTL)表位鉴定是设计肿瘤疫苗的关键内容.采用天然氨基酸的531个物理化学性质参数表征HLA-A*0201限制性表位9肽,从531×9个初始描述子出发,经二元矩阵重排过滤器粗筛和多轮末尾淘汰精细筛选,获得18个物理化学意义明确的保留描述子.18个保留描述子主要涉及除1位、5位外各位置残基的疏水性和空间结构特征,3位残基疏水性对活性影响最大,且2位、4位、9位残基共占10个保留描述子,支持2位和9位残基为锚点、3位为关键位点以及4位残基为标志链的现有认知.对18个保留描述子以支持向量回归构建定量序效模型,其拟合、留一法交叉验证决定系数R^2、Q_(cv)~2分别为0.957、0.708;独立预测决定系数及均方根误差Q_(ext)~2、RMSE_(ext)分别为0.818、0.366,明显优于文献报道.通过对全组合虚拟9肽的预测,得到了多条预测活性高于已知表位肽的9肽,可供实验验证.较全面阐明了特定位置残基对多肽亲和性的影响规律,为高活性多肽疫苗分子设计提供了切实指导.
- 韩娜袁哲明陈渊代志军王志明
- 关键词:抗原肽支持向量回归多肽疫苗
- 基于岭回归和SVM的高维特征选择与肽QSAR建模被引量:2
- 2013年
- 岭回归估计权重绝对值在一定程度上体现了对应特征作用大小,据此发展了基于岭回归(RR)和支持向量机(SVM)的高维特征选择算法.对苦味二肽(BTT)和细胞毒性T淋巴细胞(CTL)表位9肽两个肽体系,以氨基酸的531个物理化学性质参数直接表征肽结构,各获得1062、4779个初始特征;对训练集,初始特征以岭回归排序后序贯引入,当SVM留一法交叉测试(LOOCV)的均方误差(MSE)显著上扬时终止,最后以多轮末尾淘汰进一步精筛,分别获得7、18个物理化学意义明确的保留特征.基于保留特征与支持向量回归(SVR),对训练集建立定量构效关系(QSAR)模型,预测独立测试集,其拟合精度、留一法交叉测试精度、独立预测精度均优于现有文献报道结果.新方法运行速度快,选取的特征物理化学意义明确,解释性强,在肽、蛋白质定量构效关系建模等高维数据回归预测领域有较广泛应用前景.
- 王志明韩娜袁哲明伍朝华
- 关键词:定量构效关系岭回归支持向量机
- 酰胺类驱蚊剂的非线性定量构效关系被引量:1
- 2014年
- 驱蚊剂定量构效关系(QSAR)的研究对指导高效新驱蚊剂开发、阐明驱蚊剂的驱避机理有重要意义。以40种酰胺类化合物对埃及伊蚊Aedes aegypti的有效保护时间为驱避活性指标,借助PCLIENT(http:∥w w w.vcclab.org/lab/pclient/start.html)量子化学计算软件获得每个化合物的1 773个初始分子描述符,经二元矩阵重排过滤器、多轮末尾淘汰实施特征非线性筛选后,保留了8个物化意义明确的分子描述符,以支持向量回归SVR建立了高精度的非线性QSAR模型,F=8 465,R2=0.999 6。SVR可解释性体系分析结果表明,保留分子描述符对酰胺类驱蚊剂的驱避活性的非线性关系明显。其中,拓扑极性分子表面积TPSA(Tot)对驱避活性影响最为重要,其值越小,活性越高;负电性对驱避活性有较大影响,其值越大,驱避活性越高。
- 梁景华孙丛苇代志军杨黎袁哲明
- 关键词:酰胺类化合物驱蚊剂非线性定量构效关系
- 三代棉铃虫幼虫发生量的非线性分析——以河北、山西等六省为例
- 2013年
- 害虫发生量分析是害虫预测预报与综合防治的前提。在分析棉铃虫二代成虫来源及产卵去向的基础上,区分省份与年份,以我国6省1997~2006年玉米等4种非棉花寄主上三代棉铃虫幼虫密度为响应变量,选取棉花寄主上的二代虫卵密度、Bt棉种植面积、玉米种植面积等23个自变量,建立了多变量支持向量回归(Support Vector Regression,SVR)非线性模型。首先根据均方误差(mean square error,MSE)最小原则对23个自变量实施非线性多轮末尾淘汰,获得与害虫发生量相关的重要因素;然后通过保留因子构建棉铃虫发生量非线性回归模型,并以基于F检验的SVR非线性解释性体系验证了模型的显著性,模型R2=0.901 2;最后分析保留因子的显著性和单因子效应,展示了各保留因子对棉铃虫发生量的影响。
- 魏丽娟李咏陈渊袁哲明
- 关键词:棉铃虫发生量支持向量回归