国家重点基础研究发展计划(2013CB329404)
- 作品数:48 被引量:494H指数:7
- 相关作者:苏毅娟雷聪何威邓振云朱永华更多>>
- 相关机构:广西师范大学广西师范学院广西大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划广西壮族自治区自然科学基金更多>>
- 相关领域:自动化与计算机技术理学电子电信文化科学更多>>
- 基于稀疏学习的自适应近邻分类算法被引量:1
- 2015年
- 为解决k-NN算法中固定k的选定问题,引入稀疏学习和重构技术用于最近邻分类,通过数据驱动(data-driven)获得k值,不需人为设定。由于样本之间存在相关性,用训练样本重构所有测试样本,生成重构系数矩阵,用l1-范数稀疏重构系数矩阵,使每个测试样本用它邻域内最近的k(不定值)个训练样本来重构,解决k-NN算法对每个待分类样本都用同一个k值进行分类造成的分类不准确问题。UCI数据集上的实验结果表明,在分类时,改良k-NN算法比经典k-NN算法效果要好。
- 程德波苏毅娟宗鸣朱永华
- 关键词:数据驱动
- 基于属性自表达的低秩超图属性选择算法
- 2017年
- 针对高维数据具有低秩形式和属性冗余等特点,提出一种基于属性自表达的无监督超图属性选择算法。该算法首先利用属性自表达特点用其他属性稀疏地表达每个属性,此自表达形式使用低秩假设寻找高维数据的低秩表示,然后建立超图正则化因子保持高维数据的局部结构,最后利用稀疏正则化因子进行属性选择。属性自表达特性确定属性的重要性,低秩表示相当于考虑数据的全局信息进行子空间学习,超图正则化因子考虑数据的局部结构对数据进行子空间学习。该算法实际上考虑数据全局和局部信息进行子空间学习,更是一种嵌入了子空间学习的属性选择算法。实验结果表明,该算法相比其他对比算法,能更有效地选取属性,并能取得很好的分类效果。
- 苏毅娟雷聪胡荣耀何威朱永华
- 关键词:子空间学习超图
- 基于核稀疏表示的属性选择算法
- 2020年
- 为解决高维数据在分类时造成的“维数灾难”问题,提出一种新的将核函数与稀疏学习相结合的属性选择算法。具体地,首先将每一维属性利用核函数映射到核空间,在此高维核空间上执行线性属性选择,从而实现低维空间上的非线性属性选择;其次,对映射到核空间上的属性进行稀疏重构,得到原始数据集的一种稀疏表达方式;接着利用L 1范数构建属性评分选择机制,选出最优属性子集;最后,将属性选择后的数据用于分类实验。在公开数据集上的实验结果表明,该算法能够较好地实现属性选择,与对比算法相比分类准确率提高了约3%。
- 吕治政李扬定雷聪
- 关键词:非线性核函数
- 基于图稀疏的自表达属性选择算法被引量:2
- 2016年
- 为解决高维数据属性维度高,不易直接应用的问题,提出通过属性自表达移除不相关和冗余属性的属性选择算法。基于稀疏学习的框架,通过属性自表达考虑属性间的相关性,利用子空间学习的局部保留投影(LPP)算法,确保属性选择时数据的局部结构保持不变。实验结果表明,该算法在UCI等数据集上优于4种对比算法。
- 钟智胡荣耀何威罗?
- 关键词:子空间学习属性约简
- 基于稀疏学习的kNN分类被引量:8
- 2016年
- 在kNN算法分类问题中,k的取值一般是固定的,另外,训练样本中可能存在的噪声能影响分类结果。针对以上存在的两个问题,本文提出一种新的基于稀疏学习的kNN分类方法。本文用训练样本重构测试样本,其中,l_1-范数导致的稀疏性用来对每个测试样本用不同数目的训练样本进行分类,这解决了kNN算法固定k值问题;l_(21)-范数产生的整行稀疏用来去除噪声样本。在UCI数据集上进行实验,本文使用的新算法比原来的kNN分类算法能取得更好的分类效果。
- 宗鸣龚永红文国秋程德波朱永华
- 稀疏编码的最近邻填充算法被引量:3
- 2015年
- 针对K最近邻填充算法(K-nearest neighbor imputation,KNNI)的参数K值固定问题进行了研究,发现对缺失值填充时,参数K值固定很大程度上影响了填充效果。为此,提出了基于稀疏编码的最近邻填充算法来解决这一问题。该算法是用训练样本重构每一缺失样本,在重构过程中充分考虑了样本之间的相关性;并用1范数来学习确保每个缺失样本用不同数目的训练样本填充,以此解决KNNI算法参数K值选取问题。基于数据性能分析指标RMSE和相关系数的实验比较结果表明,该算法比KNNI算法的效果要好。该算法能很好地避免了KNNI算法存在的缺陷,适用于数据预处理环节需要对缺失值进行填充的应用领域。
- 苏毅娟程德波宗鸣李凌朱永华
- 关键词:缺失值填充均方根误差相关系数数据预处理
- 基于LPCA的谱聚类算法
- 2019年
- 针对传统谱聚类在构建关系矩阵时只考虑样本的全局特征而忽略样本的局部特征、在聚类划分时通常需要指定聚类个数、无法对交叉点进行正确划分等问题,提出了一种改进的基于局部主成分分析和连通图分解的谱聚类算法。首先自动学习挑选数据集的中心点,然后使用局部主成分分析得到数据集的关系矩阵,最后用连通图分解算法完成对关系矩阵的划分。实验结果表明该改进算法性能优于现有经典算法。
- 童涛文国秋谭马龙吴林杜婷婷
- 关键词:谱聚类
- 大数据下的快速KNN分类算法被引量:29
- 2016年
- 针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新性地在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度地减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。实验表明,该算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。
- 苏毅娟邓振云程德波宗鸣
- 关键词:大数据分块聚类中心
- 基于PCA的哈希图像检索算法被引量:7
- 2018年
- 为了解决传统图像检索算法低效和耗时的缺点,提出一种基于PCA哈希的图像检索算法。通过结合PCA与流形学习将原始高维数据降维;然后通过最小方差旋转得到哈希函数和二值化阈值,进而将原始数据矩阵转换为哈希编码矩阵;最后通过计算样本间汉明距离得到样本相似性。在三个公开数据集上的实验结果表明,提出的哈希算法在多个评价指标下均优于现有算法。
- 苏毅娟余浩雷聪郑威李永钢
- 关键词:哈希图像检索主成分分析流形学习
- 基于LPP和Lasso的kNN回归算法
- 2015年
- 针对k NN回归算法中k值固定且未考虑样本相关性的影响,提出一种基于LPP和Lasso的最近邻算法.该算法通过局部保持投影与稀疏编码相结合,使训练样本对每一个测试样本都进行重构,重构过程中,LPP用于保持原始数据的局部结构,l1-范式确保每个测试样本被k个不同数目的最近邻样本预测,以此解决k NN算法中k值固定问题.在UCI数据集上得到的实验结果表明,改进算法在线性回归中的预测能力优于传统k NN算法.
- 龚永红邓振云孙可刘越
- 关键词:KNN局部保持投影