邓知龙
- 作品数:3 被引量:46H指数:1
- 供职机构:哈尔滨工业大学更多>>
- 发文基金:哈尔滨工业大学科研创新基金国家自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- 统计与词典相结合的领域自适应中文分词被引量:45
- 2012年
- 基于统计的中文分词方法由于训练语料领域的限制,导致其领域自适应性能力较差。相比分词训练语料,领域词典的获取要容易许多,而且能为分词提供丰富的领域信息。该文通过将词典信息以特征的方式融入到统计分词模型(该文使用CRF统计模型)中来实现领域自适应性。实验表明,这种方法显著提高了统计中文分词的领域自适应能力。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%。
- 张梅山邓知龙车万翔刘挺
- 关键词:中文分词CRF领域自适应
- 基于感知器算法的高效中文分词与词性标注系统设计与实现
- 分词、词性标注是自然语言处理的基础性课题,是很多其他自然语言处理任务的基础,同时在很大程度上影响着后续任务的最终性能。构建一个高性能、高效率的中文分词、词性标注系统具有重要的学术意义和应用价值。 本文着眼于构建一个性能...
- 邓知龙
- 关键词:中文分词感知器词性标注
- 文献传递
- 统计与词典相结合的领域自适应中文分词
- 基于统计的中文分词方法往往不具有良好的领域自适应性。本文通过将外部词典信息融入统计分词模型(本文使用CRF统计模型)来实现领域自适应性。实验表明,这种方法具有良好的领域自适应性。当测试领域和训练领域相同时,分词的F-me...
- 张梅山邓知龙车万翔刘挺
- 关键词:中文分词CRF领域自适应
- 文献传递