林洋港
- 作品数:6 被引量:15H指数:2
- 供职机构:中国科学技术大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 文本分类中基于概率主题模型的噪声处理方法被引量:9
- 2010年
- 训练集中文本质量的好坏直接决定着文本分类的结果。实际应用中训练集的构建不可避免地会产生噪声样本,从而影响文本分类方法的实际应用效果。为此,针对文本分类中的噪声问题,本文提出一种基于概率主题模型的噪声处理方法,首先对训练集中的每个样本计算其类别熵,根据类别熵对噪声样本进行过滤;然后利用主题模型进行数据平滑,进一步减弱噪声样本的影响。这种方法不但能够减弱噪声样本对分类结果的影响,同时还保持了训练集的原有规模。在真实数据上的实验表明,该方法对噪声样本的分布具有较好的鲁棒性,在噪声比例较大的情况下仍能保持较好的分类结果。
- 林洋港陈恩红
- 关键词:噪声数据文本分类
- 概率主题模型在文本分类中的应用研究
- 数据偏斜和噪声数据是文本自动分类应用中经常遇到的问题。在数据偏斜的情况下,样本无法准确反映整个空间的数据分布,分类器容易受到大类的影响而忽略小类。大多数分类算法都是面向均匀分布数据提出的,对于数据偏斜的情况,仅利用传统的...
- 林洋港
- 关键词:数据偏斜噪声数据文本分类
- 文献传递
- 文本分类方法
- 一种文本分类方法,包括以下步骤:根据类别将初始训练文本集划分为多个分别包含相同类别文本的子集,并从每个子集中抽取出对应的概率主题模型;利用对应的概率主题模型生成新的文本来均衡所述多个子集的类别;根据所述多个子集对应的均衡...
- 陈恩红林洋港马海平曹欢欢
- 文献传递
- 基于概率主题的文本层次分类(英文)被引量:2
- 2009年
- 概率主题模型是一种统计生成模型,它从文档集合中抽取一系列主题,并将这些文档表示为不同主题依照一定概率混合而成.通过这种模型发现的主题,能揭示文档的语义信息,在很多领域都有着广泛的应用.为此基于概率主题模型,提出了一种新的层次文本分类方法.该方法首先利用Gibbs抽样提取一系列主题,然后计算测试文档和每个类的基于主题的相似度.在20 News Groups数据集上的实验结果表明,该方法的分类性能明显超越支持向量机分类方法.
- 权小军林洋港罗奇鸣陈恩红
- 关键词:GIBBS抽样
- 文本分类方法
- 一种文本分类方法,包括以下步骤:根据类别将初始训练文本集划分为多个分别包含相同类别文本的子集,并从每个子集中抽取出对应的概率主题模型;利用对应的概率主题模型生成新的文本来均衡所述多个子集的类别;根据所述多个子集对应的均衡...
- 陈恩红林洋港马海平曹欢欢
- 文献传递
- 一种集成NER的文本分类特征选择方法被引量:2
- 2007年
- 文本分类是将自由文本自动划分到若干预先定义类别的方法,在信息检索等领域有很重要的作用。其中,如何选择有效的文本特征是影响文本分类器分类性能的一个重要步骤。很多应用中需要处理的文本信息包含了很多的命名实体,如某个行业的名人,往往能够在很大程度上影响着文本所属的类别。然而,现阶段的文本特征方法都只利用关键词的统计意义,而没有考虑关键词作为命名实体所含有的分类特征。针对这一问题,本文提出了一种将命名实体识别方法NER集成到文本分类特征选择中的方法,在保留关键词统计特征之外,还保留了单词作为命名实体的分类特征。实验结果表明,相对于其他特征选择方法而言,本文提出的方法在一定程度上提高了文本分类的分类准确率。
- 施德明林洋港陈恩红
- 关键词:命名实体识别文本分类隐马尔可夫模型