搜索到116篇“ 过抽样“的相关文章
基于密度峰值聚类的不平衡数据抽样方法
2024年
大多数不平衡数据抽样方法依赖于太多参数,容易生成噪声并难以处理流形数据集。为此,文章提出了一种基于密度峰值聚类的不平衡数据抽样方法(OVMEDPC)。首先,OVMEDPC用密度峰值聚类(DPC)来发现不平衡数据的空间结构;其次,OVMEDPC设计了一种基于密度峰值聚类的噪声滤方法来移除噪声;最后,OVMEDPC设计了一种基于密度峰值聚类的插值技术来生成少数类的合成样本。实验证明,就随机森林分类器而言,OVMEDPC在F-measure和G-mean上优于5个先进的抽样方法。
张智驹
关键词:聚类
基于少数类样品合成抽样技术算法的血液透析患者动静脉内瘘功能不良的预测模型建立
2024年
目的分析血液透析患者动静脉内瘘(arteriovenous fistula,AVF)功能不良的危险因素,并基于少数类样品合成抽样技术(synthetic minority oversampling technique,SMOTE)算法建立风险预警模型。方法选取安庆市立医院2019年1月1日至2021年12月31日期间在肾内科就诊且以AVF作为透析通路的血液透析患者400例作为研究对象,根据血液透析患者AVF功能将其分为AVF功能不良组(81例)和AVF功能正常组(319例),分析所选血液透析患者的临床资料,并通单因素与多因素Logistic回归分析筛选血液透析患者AVF功能不良的危险因素,再通SMOTE算法对上述危险因素的数据进行重建,从而获得血液透析患者AVF功能不良风险预警模型,并对两种模型的预测效能进行比较。结果女性、糖尿病、白蛋白<35 g/L、C反应蛋白≥25 mg/L、血磷>2 mmol/L、AVF狭窄为血液透析患者AVF功能不良的危险因素(P<0.05)。根据上述危险因素及回归系数,获得原始预警模型P1预警模型的受试者工作特征曲线曲线下面积为0.787(95%CI:0.743~0.831),P2预警模型的受试者工作特征曲线曲线下面积为0.870(95%CI:0.812~0.928),基于SMOTE算法预警模型的真正类率值比原始数据预警模型(0.731比0.763)低,而PPV值(0.742比0.866)、F-score(0.729比0.886)均比原始数据预警模型高。结论女性、糖尿病、白蛋白<35 g/L、C反应蛋白≥25 mg/L、血磷>2 mmol/L、AVF狭窄为血液透析患者AVF功能不良的危险因素,根据上述危险因素构建的SMOTE预警模型相较于传统Logistic回归模型有着更高的预测价值。
黄建钰端靓靓
关键词:肾透析动静脉内瘘血液透析
基于局部集合和差分进化的抽样方法被引量:1
2023年
基于噪声滤的抽样方法能克服噪声生成,但是他们的噪声侦察技术和合成样本的程依赖于参数,同时,他们也会滤掉大量的少数类样本。为了解决该问题,文章提出了一种基于局部集合和差分进化的抽样方法(OMLSDE)。首先,用该方法计算每个样本的局部集合;其次,用局部集合和不平衡比去发现可疑的噪声;然后,用差分进化去优化可疑的噪声;最后,用局部集合内的随机样本去生成少数类的合成样本。实验证明,OMLSDE优于6个流行的抽样方法。
罗少甫
关键词:数据预处理过抽样差分进化
基于人工少数类样本合成抽样技术算法构建胃癌术后便秘预测模型及护理研究
2023年
目的分析胃癌患者术后是否发生便秘、其产生原因及相关影响因素, 为构建便秘风险预测模型, 减少术后发生便秘提供参考。方法选取2020年1月至2023年1月同济大学附属东方医院收治的124例胃癌术后患者, 使用单因素比较及Logistic多因素回归分析模型筛选出其中独立影响病情的因素。使用C指数对该模型的准确度进行验证。采用少数类样本合成抽样技术(SMOTE)算法重构相关影响要素的原始数据, 从而得到通SMOTE算法下的胃癌术后患者便秘模型, 并在该模型的基础上进行了分析, 得到科学的护理结果。结果 124例中有42例患者术后发生便秘。术前有便秘史、手术方式、饮食习惯等为胃癌术后发生便秘的相关因素(P<0.05)。手术方式、卧床时间、性别是胃癌患者术后发生便秘的独立危险因素(P<0.05), 手术方式为传统开腹手术治疗、卧床时间长、男患者术后易出现便秘。将手术方式、卧床时间、性别纳入预测模型中, 对原始Logistic回归模型1与基于SMOTE重建的Logistic回归模型2进行分析, 采用ROC曲线检验结果显示, Logistic回归模型2的ROC检验效能显著, (AUC模型1=0.795, AUC模型2=0.838)。采用10折交叉法, 将与该模型相对应的数据均分为20份, 每个数据轮流将其中1份作为测试集, 剩余数据均用作训练集检验。其中, 2个预警模型的预测质量, 模型2为0.75, 显著优于原始Logistic回归预警模型0.70(P<0.05)。结论胃癌术后患者便秘发生率较高, 并且术后便秘会持续很长一段时间, 患者出现排便困难及腹胀等并发症, 在临床上应该加大对胃癌患者术后的观察。通便秘预测风险模型, 可以对便秘风险做出判断, 尽可能尽早采取相应的预防措施, 提高医护工作质量, 从而加快患者病情恢复, 实现最佳预后。
卞海磊李陵君李丹丹丁佳骏倪荔
关键词:便秘预警模型
基于少数类样本合成抽样技术算法2型糖尿病合并周围神经病变风险预警模型构建被引量:1
2023年
目的探讨2型糖尿病合并周围神经病变的危险因素,并基于少数类样本合成抽样技术(SMOTE)算法构建2型糖尿病合并周围神经病变的风险预警模型。方法选取自2020年1月至2021年12月芜湖市第二人民医院收治的205例2型糖尿病患者为研究对象。根据周围神经病变发生情况将患者分为周围神经病变组(n=70)和无周围神经病变组(n=135)。收集并记录患者的年龄、性别、病程、居住地、婚姻状态、体质量指数、文化程度、饮酒史、吸烟史、糖化血红蛋白、高血压、空腹血糖及合并糖尿病视网膜病变(DR)等资料。采用Logistic回归分析筛选2型糖尿病合并周围神经病变的危险因素,应用SMOTE算法构建2型糖尿病合并周围神经病变的预警模型。采用受试者工作特征(ROC)曲线对预警模型的预测效能进行分析。结果Logistic回归分析结果显示,年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压及合并DR是2型糖尿病合并周围神经病变的危险因素(P<0.05)。原始预警模Logit(P_(1))H-L检验结果(决定系数R^(2)=0.352,P=0.328),提示Logistic回归模型的拟合度良好。基于SMOTE算法的预警模型Logit(P_(2))H-L检验结果(决定系数R^(2)=0.371,P=0.635),提示基于SMOTE算法的预警模型拟合度良好。原始预警模型的ROC曲线下面积为0.809,基于SMOTE算法的预警模型的ROC曲线下面积为0.927。结论年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压及合并DR是2型糖尿病合并周围神经病变的危险因素,基于SMOTE算法的预警模型能够对2型糖尿病合并周围神经病变进行准确预测,可帮助临床制定周围神经病变的相关防治对策。
庄翠侠杨俊平王妍刘思园姜莉晴季学磊祝腊香
关键词:2型糖尿病周围神经病变预警模型
非平衡样本下基于生成对抗网络抽样技术的公司债券违约风险预测研究被引量:7
2022年
本文基于我国在公开市场发行信用类债券的违约数据,利用了基于Wasserstein距离的生成对抗网络模型和SMOTE抽样技术对违约样本进行抽样以提高非平衡样本下违约风险模型的预测效果.为检验抽样技术对分类模型的改进效果,实证分析对不同的重抽样样本类别比例下分类模型的预测结果进行比较.研究结果表明抽样技术能够显著地分类模型的预测精度,而且预测效果随着样本类别比例达到平衡而不断提高.和经典的SMOTE抽样技术相比,基于Wasserstein距离的生成对抗网络抽样技术不仅可以提高分类模型的AUC指标,同时还能显著地改进F1得分.研究结果表明通生成对抗网络对少数类样本进行抽样能够显著地提升机器学习算法对债券违约风险的预测效果,为研究非平衡样本下的债券违约风险预测提供一种新的解决思路.
姚潇李可李可
面向不均衡数据集的抽样数学模型构建被引量:2
2021年
以提升不均衡数据集内少数类样本的分类性能为目标,从样本采样以及分类器优化两方面构建面向不均衡数据集的抽样数学模型。利用数据分布不均衡条件下的少数类抽样算法处理不均衡数据集内少数类样本,算法将少数类样本作为中心,利用新生成的虚拟少数类样本改善不平衡数据集内数据不均匀分布情况,将完成处理的少数类样本与多数类样本结合建立新训练样本集合,新训练样本集合输入经熵值法优化的混合核ε-SVM分类器中训练分类器,将测试样本集输入完成训练的优化混合核ε-SVM分类器中,实现不均衡数据集内样本精准分类。实验结果表明,上述模型分类不均衡数据集内少数类样本的F-Value值高于0.8,具有良好的分类效果,可解决数据集内样本分布不均衡情况。
杨思狄王亚玲
关键词:数据集过抽样数学模型熵值法
一种增强少数类边界的多类不平衡抽样算法
2021年
多类不平衡数据的抽样分类方法有助于解决多类实例平衡及提高分类准确率,但在抽样生成合成实例程中也面临着两个主要难题:一是怎样区分每个少数类中的有限实例在生成合成实例时的重要性,二是在生成合成实例后能否更加清楚地划分多数类与少数类的边界。针对此问题,提出了一种增强多类不平衡中少数类实例边界实例方法。其思路是根据少数类实例中边界实例在分类中的重要作用,越靠近边界的少数类实例赋予的权重越大,这样就可在边界处生成更多合成少数类实例,从而达到进一步加强少数类处边界的效果,同时也克服了多数类实例的学习偏差,最终使得多类平衡数据达到一定程度的平衡。实验结果表明,本算法既能很好地区分每个少数类实例在生成合成实例时的重要程度,还能更加清楚地区分多数类与少数类的边界,在不平衡数据分类的4个常用评价指标上,其查准率、查全率、F-Measure和G-mean均获得了较好的效果。
曹兰
关键词:数据挖掘过抽样评价指标
面向不均衡数据集的抽样算法被引量:9
2020年
合成少数类抽样技术(SMOTE)中的噪声样本可能参与合成新样本,所以难以保证新样本的合理性。针对这个问题,结合聚类算法提出了改进算法CSMOTE。该算法抛弃了SMOTE在最近邻间线性插值的思想,使用少数类的簇心与其对应簇中的样本进行线性插值合成新样本,并且对参与合成的样本进行了筛选,降低了噪声样本参与合成的可能。在六个实际数据集上,将CSMOTE算法与四个SMOTE的改进算法以及两种欠抽样算法进行了多次的对比实验,CSMOTE算法在所有数据集上均获得了最高的AUC值。实验结果表明,CSMOTE算法具有更高的分类性能,可以有效解决数据集中样本分布不均衡的问题。
崔鑫徐华宿晨
关键词:不均衡数据集聚类过采样
面向非平衡数据分类的概率抽样滤方法
2020年
利用非合作博弈理论为概率抽样合成的少数类数据决定其最可能的类标签,将数据中的非本类合成数据进行滤,减少概率抽样合成数据程中产生的重叠数据,得到更高质量的少数类数据进而改善数据倾斜状况。实验分别以CART和SVM分类器建立模型,将本文提出的面向非平衡数据分类的概率抽样滤方法RACOG+F与原始概率抽样方法分别在8个KEEL非平衡数据集上进行对比。实验表明,本文提出的方法在评价指标F-measure、G-mean和AUC上获得了较好的分类性能。
孟庆鹏田开严张恒
关键词:非平衡数据分类过抽样

相关作者

杨明
作品数:1,012被引量:4,600H指数:34
供职机构:东南大学
研究主题:仿真 永磁同步电机 伺服系统 仿真系统 数据挖掘
尹军梅
作品数:5被引量:40H指数:3
供职机构:南京师范大学计算机科学与技术学院
研究主题:过抽样 不平衡数据分类 不平衡数据集 不平衡数据 子空间
于银辉
作品数:100被引量:161H指数:7
供职机构:吉林大学
研究主题:网络 混沌扩频序列 混沌 扩频序列 蜂窝网络
陆慧娟
作品数:145被引量:449H指数:12
供职机构:中国计量大学
研究主题:极限学习机 基因表达数据 数据库 计算机 计算机专业
任雄伟
作品数:37被引量:113H指数:6
供职机构:中国人民解放军海军工程大学电子工程学院
研究主题:作战效能评估 仿真 传感器网络 数据分发服务 路由协议