蔡月红
- 作品数:5 被引量:17H指数:3
- 供职机构:江苏大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于属性选择的半监督短文本分类算法被引量:8
- 2010年
- 针对海量短文本分类中的标注语料匮乏问题,提出了一种基于属性选择的半监督短文本分类算法。通过基于ReliefF评估和独立性度量的属性选择技术选出部分具有较好的属性独立关系的属性参与分类模型的学习,以弱化朴素贝叶斯模型的强独立性假设条件;借助集成学习,以具有一定差异性的分类器组去估计初始值,并以多数投票策略去分类未标注语料集,以减低最大期望算法(EM)对于初始值的敏感。通过真实语料上进行的比较实验,证明了该方法能有效利用大量未标注语料提高算法的泛化能力。
- 蔡月红朱倩孙萍程显毅
- 关键词:半监督学习文本分类
- 基于句义三维模型的汉语句子相似度计算
- 2009年
- 通过对句子语义表示的深入分析,提出汉语句义的三维表示模型,并在此基础上提出一种基于句义三维表示模型的句子相似度计算方法。该方法从义面、义原、义境三个侧面来综合描述句子的语义,并通过迭代求解各方的权重,从而使计算结果达到最优。与传统的方法相比,更加全面、准确地衡量句子之间的相似度,取得了较好的实验结果。
- 蔡月红朱倩程显毅杨天明
- 关键词:句子相似度
- 基于Tri-training半监督学习的中文组织机构名识别被引量:4
- 2010年
- 针对中文组织机构名识别中的标注语料匮乏问题,提出了一种基于协同训练机制的组织机构名识别方法。该算法利用Tri-training学习方式将基于条件随机场的分类器、基于支持向量机的分类器和基于记忆学习方法的分类器组合成一个分类体系,并依据最优效用选择策略进行新加入样本的选择。在大规模真实语料上与co-training方法进行了比较实验,实验结果表明,此方法能有效利用大量未标注语料提高算法的泛化能力。
- 蔡月红朱倩程显毅
- 关键词:半监督学习
- 基于HNC词的聚类被引量:1
- 2009年
- 针对文本分类和信息检索中的信息冗余和计算复杂等问题,在概念层次网络的基础上,提出了反义词、同义词、近义词的聚类算法.算法的基本思想是将词语的语义映射到HNC概念符号体系上,将所有的词语都变成一系列符号串,并在计算语义相似度和语义距离的基础上,在词语的HNC符号语料库上实现同义、近义、反义的聚类.
- 朱倩史燕程显毅蔡月红
- 关键词:HNC反义词同义词近义词聚类
- 基于语义倾向性的文本过滤研究被引量:4
- 2009年
- 以往文本过滤的研究主要集中于主题过滤,然而随着网络的发展,倾向性文本过滤在网络信息安全方面的作用越来越大。在语义倾向性分析中,若忽略关联词和修饰词则有可能导致对极性词的倾向或强度判断失误。针对这一问题,提出了一种新的语义倾向性识别算法,用于对潜在极性词进行倾向性识别,并应用到文本过滤方面。实验表明此方法具有较高的准确率和召回率。
- 程显毅杨天明朱倩蔡月红
- 关键词:文本过滤语义关联词