肖鹰
- 作品数:7 被引量:17H指数:2
- 供职机构:浙江工业大学更多>>
- 发文基金:浙江省自然科学基金浙江省科技厅重大专项基金浙江省重大科技专项基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Spark平台的K-means聚类算法改进及并行化实现被引量:11
- 2016年
- 针对K-means算法在数据聚类过程中初始值选取的随机性问题,基于非均匀采样原则对该算法进行改进。同时,针对聚类算法并行化的需求,基于Spark平台对改进算法进行了并行化实现。单机串行处理和集群并行化实验证明了该改进算法在处理海量数据集时具有更高的准确性和稳定性,且在Spark平台上的并行化实现具有良好的加速比和可扩展性,从而表明该算法能在实际的海量数据处理中高效运行。
- 吴哲夫张彤肖鹰
- 关键词:K-MEANS聚类SPARK并行化
- 一种基于特征选择的不平衡数据分类算法被引量:5
- 2016年
- 不平衡数据分类是当前机器学习的研究热点,传统分类算法通常基于数据集平衡状态的前提,不能直接应用于不平衡数据的分类学习。针对不平衡数据分类问题,文章提出一种基于特征选择的改进不平衡分类提升算法,从数据集的不同类型属性来权衡对少数类样本的重要性,筛选出对有效预测分类出少数类样本更意义的属性,同时也起到了约减数据维度的目的。然后结合不平衡分类算法使数据达到平衡状态,最后针对原始算法错分样本权值增长过快问题提出新的改进方案,有效抑制权值的增长速度。实验结果表明,该算法能有效提高不平衡数据的分类性能,尤其是少数类的分类性能。
- 肖鹰吴哲夫张彤王中友
- 数据挖掘不平衡分类中的特征选择技术研究
- 数据挖掘和机器学习是目前最热门的领域之一,如何进行快速高效的数据挖掘,从中获得有价值的信息就显得尤为重要。其中分类问题是一个很重要的研究课题,传统的分类算法虽然得到了较好的应用,但是其算法大部分都是建立在数据集分布均匀的...
- 肖鹰
- 关键词:数据挖掘
- 一种基于不平衡数据集的文本特征选择方法
- 一种基于不平衡数据集的文本特征选择方法,在计算机上计算不平衡文档的特征集合,选择分类算法模型进行建模,具体包括以下步骤:步骤1将数据集分成多数类和少数类,并规定少数类为正类,用c<Sub>i</Sub>表示;多数类为负类...
- 吴哲夫肖鹰宣琦王中友
- 一种基于不平衡数据集的文本特征选择方法
- 一种基于不平衡数据集的文本特征选择方法,在计算机上计算不平衡文档的特征集合,选择分类算法模型进行建模,具体包括以下步骤:步骤1将数据集分成多数类和少数类,并规定少数类为正类,用c<Sub>i</Sub>表示;多数类为负类...
- 吴哲夫肖鹰宣琦王中友
- 文献传递
- 一种数据采集和可视化监控智能系统
- 一种数据采集和可视化监控智能系统,主要包括:用于通过OPC实现不同底层设备和上层管理系统数据传输的数据采集子系统,用于数据上传、备份及恢复的功能数据处理子系统,可选的应用大数据技术的大数据处理子系统,用于用户服务的应用子...
- 吴哲夫邬新东张彤肖鹰
- 文献传递
- 基于用户喜好的个性推荐系统优化被引量:1
- 2015年
- 采用协同过滤方式的传统推荐系统具有一定实用性,但也存在未考虑用户个性喜好的问题。为提高推荐精度,特别针对用户个性化特点和需求,提出了采用改进相似度计算和回归分析方法对协同过滤推荐进行系统优化。实验结果表明,优化算法可明显改善系统的推荐效果,并加强基于协同过滤推荐的有效性。
- 王中友肖鹰吴哲夫
- 关键词:个性化推荐系统