孙霞
- 作品数:4 被引量:2H指数:1
- 供职机构:新疆大学软件学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术理学医药卫生更多>>
- 基于预筛选的海量分子结构检索算法
- 2015年
- 针对大数据环境下,化学分子结构检索低效、通用图同构VF2算法检索量过大的缺陷,提出了基于预筛选的ASVF2算法,建立了基于分布式的分子检索模型。实验结果表明,在包含20万个化学结构的数据中,该方法可以快速准确地检索包含特定信息的分子,大幅降低了分子结构检索的复杂度,模型具有稳定的可扩展性。
- 孙霞禹龙田生伟闫奕霖
- 关键词:集群并行
- 离散化分段哈希的海量化合物并行检索
- 2015年
- 针对海量数据环境下单机检索低效问题,建立了对海量化合物快速检索的分布式计算模型,提出了基于分治策略的分段哈希算法。对于如分子量、脂水分配系数(lggP)等不适于用哈希检索的连续数值型数据,设计了连续属性离散化模型进行离散化处理。实验结果表明,在对化合物大文件进行检索时,该模型可快速有效地检索范围信息,避免了对海量数据的重复检索,大幅降低了化合物检索的内存及时间,具有稳定的可扩展性和高效性。
- 闫奕霖田生伟禹龙孙霞
- 关键词:并行计算化学信息学海量数据连续属性离散化
- 基于数据预处理深度置信网络的药物与非药物分类(英文)
- 2018年
- 制药工业的一个主要趋势是整合传统意义上被认为早期阶段药物发现的分子描述.为了更好的将药物和非药物分类,本文提出了基于深度信念网络(DBN)的分类模型.首先,对分子特征进行预处理以保证有价值的信息得到保留,其次,该模型将DBN和反向传播(BP)分类器结合去对药物/非药物进行检测和分类.DBN由几个受限玻尔兹曼机(RBM)层组成,当特征向量转移到下一层时这些RBM层尽可能多的保留具有重要的影响的信息.BP层训练的最后一个RBM层生成特征分类.结果表明,该方法是提取高层次特征的药物和非药物分类任务中一种成功的方法,分类精度高达85.3%,高于传统的支持向量机和神经网络方法.同时,预处理对分子特征的提取更为有效,从而在一定程度上提高了分类的准确性.
- 禹龙牛苗田生伟孙霞李莉王梅孔军
- 关键词:数据预处理特征提取
- 基于一致性Hash的分布式海量分子检索模型被引量:2
- 2015年
- 针对大数据环境下,传统通用图匹配检索低效、折射率数据无法快速定位的问题,建立了基于一致性Hash的分布式海量分子检索模型。模型结合分子特点,将连续的折射率通过等宽算法离散化建立高速Hash索引,实现分布式海量分子检索系统,有效减小了参与计算的分子数据规模,并根据分子访问频次处理冲突从而提高分子检索效率。实验结果表明,在包含20万个分子的数据中,该方法平均检索耗时约为通用图匹配平均检索耗时的5%,模型性能稳定,具有高可扩展性;对于海量数据环境下依据折射率检索高频次分子较为适用。
- 孙霞禹龙田生伟闫奕霖林江丽
- 关键词:离散化分布式计算