李焰锋
- 作品数:2 被引量:56H指数:2
- 供职机构:中山大学资讯管理学院更多>>
- 发文基金:国家高技术研究发展计划广东省哲学社会科学规划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 改进TF-IDF算法的文本特征项权值计算方法被引量:54
- 2013年
- 首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(termfrequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW。其次,通过对特征词的卡方分布和TW作对比实验,验证TW能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将TW与TF-IDF结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。
- 路永和李焰锋
- 关键词:文本分类TF-IDF
- 多因素影响的特征选择方法被引量:3
- 2013年
- 在特征选择过程中,通过特征选择评估函数得到的词的权值大小决定该词是否作为特征词,然而词的权值受多种因素影响,主要因素有词的重要性、特征性和代表性。从以上几个因素出发,构建新的特征选择函数TW,通过对词的卡方分布CHI、信息增益IG和新的特征选择函数TW做对比实验,验证TW能够提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值;将TW作为新的特征选择算法,通过在中文分类语料库中分别采用KNN、类中心和支持向量机(SVM)三种分类方法进行实际分类实验,并与其他特征选择算法进行比较,验证该特征选择算法的有效性。
- 路永和李焰锋
- 关键词:文本分类TF-IDF