曹桂宏
- 作品数:4 被引量:58H指数:2
- 供职机构:天津大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金天津市科技发展战略研究计划项目天津市自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 对称和非对称词语聚类模型的比较研究
- 2009年
- 词语聚类是语音识别、智能信息检索等领域的一个重要的自然语言处理问题。实现基于互信息的对称聚类模型,并针对该模型未考虑词语顺序的缺陷,提出一种新的非对称聚类模型。按照聚类词相对其他词语的位置关系,该模型分为2个子模型,即条件聚类模型和预测聚类模型。在大规模数据集上的实验表明,相对于对称聚类模型,非对称聚类模型是一种更为有效的词语聚类模型。
- 孙越恒曹桂宏侯越先
- 中文分词对中文信息检索系统性能的影响被引量:22
- 2003年
- 中文分词作为中文信息处理最重要的预处理手段被广泛应用,该文从两个方面(检索精度和召回率)深入研究了中文分词精度和分词算法对中文信息检索性能的影响。此外,提出了两个假设,并在此基础上给出了一种提高中文信息检索系统性能的方法。实验表明,新方法能够取得很好的结果,证实了这两个假设。
- 曹桂宏何丕廉吴光远聂颂
- 关键词:中文分词中文信息检索向量空间模型
- 基于类的统计语言模型的研究
- 在该文中,作者和项目组的其他成员提出了一种非对称的聚类算法,该算法相对于传统的对称聚类算法拥有效率高,性能好等优点.利用该算法的聚类结果生成的聚类语言模型的性能要好于传统的聚类语言模型.该文第一章是引言,主要介绍该文中使...
- 曹桂宏
- 关键词:统计语言模型N-GRAM模型语言建模
- 文献传递
- 基于向量空间模型的词共现研究及其在文本分类中的应用被引量:36
- 2003年
- 文中提出了一种基于向量空间模型的词共现模型算法 ,通过选取整篇文档为窗口单元 ,统计中高频特征词的共现信息 ,改进了模型的效果 ,并将得到的词共现资源应用于文本分类的研究中。
- 吴光远何丕廉曹桂宏聂颂
- 关键词:词共现向量空间模型互信息文本分类