您的位置: 专家智库 > >

徐冬冬

作品数:2 被引量:14H指数:1
供职机构:北京信息科技大学更多>>
发文基金:北京市教委科技发展计划国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇学位论文

领域

  • 2篇自动化与计算...

主题

  • 2篇文本分类
  • 2篇TF-IDF
  • 1篇文本
  • 1篇文本分类系统
  • 1篇词频

机构

  • 2篇北京信息科技...

作者

  • 2篇徐冬冬
  • 1篇吴韶波

传媒

  • 1篇现代图书情报...

年份

  • 1篇2015
  • 1篇2014
2 条 记 录,以下是 1-2
排序方式:
一种基于类别描述的TF-IDF特征选择方法的改进被引量:13
2015年
【目的】对特征权重公式进行改进,提高文本分类精度。【方法】引入类内、类间信息并修正TF-IDF权重因子,得到基于类别描述的TF-IDF-CD方法。将其在偏斜文本集和均衡文本集下分别与NB、KNN等分类方法结合进行文本分类实验,比较其与TF-IDF、CTD等方法的分类精确度。【结果】TF-IDF-CD方法在特征项较少时已有很好分类效果。相比TF-IDF,在不同文本集以及不同分类方法下,其平均分类精度均有大幅提高,最低为14%,最高可达30%。与CTD相比,TF-IDF-CD与NB、SVM及DT结合后的平均分类精度均有1%-13%的提高。而在非均衡文本集下,TF-IDF-CD与KNN结合时其性能比CTD与KNN结合时低2%。【局限】TF-IDF-CD与对文本集不均衡性较敏感的KNN结合时,其抗数据偏斜能力仍需改善。【结论】实验结果表明,TF-IDF-CD特征选择方法有效,对TF-IDF的改进具有一定借鉴意义。
徐冬冬吴韶波
关键词:文本分类TF-IDF
基于TF-IDF的文本分类系统中权重计算和特征选择方法研究
词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)是一种经典的基于VSM模型的权重计算方法,其算法相对简单,非常便于计算,应用较多。但该方法比较粗糙,容易...
徐冬冬
关键词:文本分类系统
文献传递
共1页<1>
聚类工具0