张越
- 作品数:2 被引量:8H指数:2
- 供职机构:南京农业大学信息科学技术学院更多>>
- 发文基金:江苏省教育厅哲学社会科学基金国家自然科学基金南京农业大学SRT基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于N-Gram文本表达的新闻领域关键词词典构建研究被引量:3
- 2010年
- 在互联网环境下,新闻数量以海量方式增长,对其进行智能化分类、知识提取处理迫在眉睫。基于此,主要研究了如何在原有关键词词典的基础上,提出一种发现新词的方法,并将提取出的未登录词添加到原始词库中,从而构造一部数量适当、覆盖面全、更新方便的关键词词典。基于大规模的新闻语料作为实验资源,采用了一种利用N-gram算法切分,用关键词抽词词典、停用词词典等过滤筛选非专名的新词识别方法。实验结果的测评表明这一方法是简便易行的。
- 吕美香何琳李玥杨敏张越
- 关键词:新闻领域新词识别
- 面向食品安全突发事件汉语分词的特征选择及模型优化研究被引量:5
- 2017年
- 【目的】在食品安全领域中,建立相关数据库对食品安全的监管和控制都会有很大的帮助,自动分词在构建索引、使用索引以及构建语料库中都起到至关重要的作用。将基于条件随机场的字标注统计学习方法,应用在食品安全突发事件语料的自动分词中。【方法】分析语料的词长分布等特点,对该方法自动分词过程中所涉及的特征选择和特征模板进行不同实验,得出不同特征选择和应用不同特征模板对分词结果的影响。【结果】从实验结果可以看出,特征选择时并不是特征越多分词效果越好,会出现特征干扰的情况,在二三字词占46.62%的食品安全突发事件语料中,特征模板中的当前字和前后驱第一个字所代表的特征模板对分词效果影响明显。【结论】通过对不同特征选择和特征模板及其相互组合的实验,选择出在本文研究的语料库自动分词中最优的特征和特征模板,在5Tag特征标记下配合对应特征模板对目标语料分词的F值达到92.88%。
- 张越王东波朱丹浩
- 关键词:中文分词食品安全条件随机场