张素芳
- 作品数:21 被引量:98H指数:6
- 供职机构:中国气象局更多>>
- 发文基金:河北省自然科学基金国家自然科学基金河北省高等学校科学技术研究指导项目更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 基于集合划分的非线性积分及其在决策树算法中的应用
- 信息融合就是从许多不同的信息资源中获取综合信息的过程,其目的是为了做出较合理的判断和决策。积分作为信息融合的工具在模式识别、数据挖掘、机器学习等许多领域发挥着重要作用。不同的信息融合需要不同类型的积分,线性积分(即类Le...
- 张素芳
- 关键词:信息融合非线性积分决策树ID3算法
- 文献传递
- 农村荒山利用中"公地悲剧"治理之道探索
- 张素芳
- 关键词:公地悲剧科斯定理
- 基于Spark的压缩近邻算法被引量:2
- 2018年
- K-近邻(K-Nearest Neighbors,K-NN)是一种懒惰学习算法,用K-NN对数据分类时,不需要训练分类模型。K-NN算法的优点是思想简单、易于实现;缺点是计算量大,原因是在对测试样例进行分类时,其需要计算测试样例与训练集中每一个训练样例之间的距离。压缩近邻算法(Condensed Nearest Neighbors,CNN)可以克服K-NN算法的不足。但是,在面对大数据集时,由于自身的迭代计算特性,CNN的运算效率会变得非常低。针对这一问题,提出一种名为Spark CNN的压缩近邻算法。在大数据环境下,与基于MapReduce的CNN算法相比,Spark CNN的效率大幅提高,在5个大数据集上的实验证明了这一结论。
- 张素芳翟俊海王婷婷郝璞王聪赵春玲
- 关键词:大数据迭代计算
- 基于MapReduce和Spark的大数据模糊K-means算法比较被引量:3
- 2020年
- 从原理和实验2方面对基于MapReduce和Spark的大数据模糊K-均值算法进行分析比较,并对2种大数据开源平台的优缺点进行了总结.由于模糊K-均值算法是一种迭代算法,需要对部分数据进行重复操作以得到最终聚类结果,因此主要从算法执行时间、同步次数、文件数目、容错性能、资源消耗这5方面进行比较,得出的结论对从事大数据研究的人员具有较高的参考价值.
- 翟俊海田石张素芳王谟瀚宋丹丹
- 关键词:大数据聚类算法模糊聚类算法迭代算法
- 基于Spark和SimHash的大数据K-近邻分类算法
- 在之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-...
- 张素芳王婷婷赵春玲翟俊海
- 关键词:K-近邻算法哈希算法
- 基于MapReduce的大数据主动学习被引量:5
- 2018年
- 针对传统的主动学习算法只能处理中小型数据集的问题,提出一种基于MapReduce的大数据主动学习算法。首先,在有类别标签的初始训练集上,用极限学习机(ELM)算法训练一个分类器,并将其输出用软最大化函数变换为一个后验概率分布。然后,将无类别标签的大数据集划分为l个子集,并部署到l个云计算节点上。在每一个节点,用训练出的分类器并行地计算各个子集中样例的信息熵,并选择信息熵大的前q个样例进行类别标注,将标注类别的l×q个样例添加到有类别标签的训练集中。重复以上步骤直到满足预定义的停止条件。在Artificial、Skin、Statlog和Poker 4个数据集上与基于ELM的主动学习算法进行了比较,结果显示,所提算法在4个数据集上均能完成主动样例选择,而基于ELM的主动学习算法只在规模最小的数据集上能完成主动样例选择。实验结果表明,所提算法优于基于极限学习机的主动学习算法。
- 翟俊海张素芳王聪沈矗刘晓萌
- 关键词:大数据不确定性极限学习机
- 基于粗糙集属性熵权依赖度的决策树归纳
- ID3算法是典型的决策树归纳方法,它以信息增益作为选择扩展属性的标准,但是ID3算法倾向于选取取值较多的属性作为扩展属性。本文提出了一种基于粗糙集属性熵权依赖度的决策树归纳方法,该方法是完全数据驱动的,而且可以克服ID3...
- 翟俊海白展燕张素芳
- 关键词:粗糙集理论属性依赖度决策树
- 基于相对分类信息熵的进化特征选择算法被引量:7
- 2016年
- 针对离散值数据集特征选择问题,提出基于相对分类信息熵的进化特征选择算法.使用遗传算法搜索最优特征子集,使用相对分类信息熵度量特征子集的重要性.以相对分类信息熵作为适应度函数,使用二进制编码问题的解,使用赌轮方法选择产生下一代个体.实验表明文中算法在测试精度上优于其它方法,此外还从理论上证明文中算法的可行性.
- 翟俊海刘博张素芳
- 关键词:数据预处理进化计算遗传算法信息熵
- 大数据与大数据机器学习被引量:22
- 2018年
- 大数据时代已经到来,大数据是指具有海量(Volume)、多样(Variety)、时效(Velocity)、不精确(Veracity)和价值(Value)这5种特征的数据,大数据研究是近几年信息处理领域最热门的研究方向,已经引起了工业界、学术界乃至政府部门的高度关注.大数据之所以备受关注,是因为大数据里面蕴藏着巨大的价值.如何把蕴藏在大数据中的价值挖掘出来,为企业或政府部门提供决策支持具有重要的意义.大数据给传统的机器学习带来了许多挑战,这些挑战可以从大数据的5个特征或从5个不同的角度进行分析.本文首先介绍大数据的概念,并详细剖析大数据5种特征的内涵;然后在此基础上,重点分析大数据给机器学习带来的挑战及可能的解决方法.本文对从事大数据研究的人员,特别是从事大数据机器学习研究的人员具有较高的参考价值.
- 张素芳翟俊海王聪沈矗赵春玲
- 关键词:大数据云计算决策支持
- 关于ID3算法的最优性证明被引量:5
- 2006年
- 研究了一个属性的某几个属性值并的权熵之和与该属性单个属性值的权熵之和的关系.通过构建模型,从理论上证明了以信息熵作为度量标准,ID3算法是最优的,生成的树是最小的,产生的规则数是最少的.
- 翟俊海张素芳王熙照
- 关键词:决策树ID3算法信息熵