徐冬冬
- 作品数:2 被引量:14H指数:1
- 供职机构:北京信息科技大学更多>>
- 发文基金:北京市教委科技发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于类别描述的TF-IDF特征选择方法的改进被引量:13
- 2015年
- 【目的】对特征权重公式进行改进,提高文本分类精度。【方法】引入类内、类间信息并修正TF-IDF权重因子,得到基于类别描述的TF-IDF-CD方法。将其在偏斜文本集和均衡文本集下分别与NB、KNN等分类方法结合进行文本分类实验,比较其与TF-IDF、CTD等方法的分类精确度。【结果】TF-IDF-CD方法在特征项较少时已有很好分类效果。相比TF-IDF,在不同文本集以及不同分类方法下,其平均分类精度均有大幅提高,最低为14%,最高可达30%。与CTD相比,TF-IDF-CD与NB、SVM及DT结合后的平均分类精度均有1%-13%的提高。而在非均衡文本集下,TF-IDF-CD与KNN结合时其性能比CTD与KNN结合时低2%。【局限】TF-IDF-CD与对文本集不均衡性较敏感的KNN结合时,其抗数据偏斜能力仍需改善。【结论】实验结果表明,TF-IDF-CD特征选择方法有效,对TF-IDF的改进具有一定借鉴意义。
- 徐冬冬吴韶波
- 关键词:文本分类TF-IDF
- 基于TF-IDF的文本分类系统中权重计算和特征选择方法研究
- 词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)是一种经典的基于VSM模型的权重计算方法,其算法相对简单,非常便于计算,应用较多。但该方法比较粗糙,容易...
- 徐冬冬
- 关键词:文本分类系统
- 文献传递