不平衡类问题在现实生活中普遍存在,表现为一个类的实例数明显多于另一个类的实例数,其类分布不平衡这一特征导致了传统的分类方法不能很好地处理该类问题.本文将k-means和逻辑回归模型相结合,提出一种叫做ILKL(Imbalanced Learning based on K-means and Logistic Regression)的算法处理不平衡类问题.首先,ILKL使用聚簇方法将多数类划分成一个个子簇,以重新平衡数据集,然后在相对的平衡的数据集上学习逻辑回归模型.UCI数据集上的实验结果显示,与传统方法相比,本文方法在召回率、g-mean和f-measure等指标上表现出更好的性能.
针对不平衡分类问题,提出了逻辑判别式算法.该算法使用拟牛顿法迭代求解模型参数,考虑模型的准确率和召回率,构造了新损失函数(Likelihood Estimation and Recall Metric,LERM);设计了用于不平衡类问题的逻辑判别式算法(Logistic Discrimination Algorithms for Imbalance,LDAI).16个数据集上的实验结果表明,与传统的逻辑判别式、基于过采样和欠采样的逻辑判别式相比,LDAI模型在召回率、f-measure、g-mean等指标上都表现出明显优势.