教育部人文社会科学研究基金(11YJCZH131)
- 作品数:6 被引量:22H指数:2
- 相关作者:祁瑞华刘彩虹郭旭杨德礼霍跃红更多>>
- 相关机构:大连外国语大学大连理工大学大连外国语学院更多>>
- 发文基金:教育部人文社会科学研究基金辽宁省高等学校优秀人才支持计划国家社会科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 两阶段半监督加权朴素信念分类模型
- 2011年
- 针对目前半监督分类算法中未考虑缺失属性隐含信息和算法复杂度高的情况,改进了朴素信念分类,提出了两阶段半监督加权朴素信念分类模型。与直推支持向量机对比实验结果表明两阶段半监督加权朴素信念分类模型减少了分类时间,并且在其能够明确分类的样本上的正确率与直推支持向量机相当,是一种有效的不完整数据分类算法。
- 祁瑞华杨德礼李慧芬
- 关键词:模式识别加权
- 典籍英译作者身份识别研究被引量:2
- 2015年
- 【目的】分析典籍英译作者身份识别的关键问题,提出不完整数据作者身份识别的有效方法。【方法】针对诗词典籍篇幅短小和语料不平衡的特点,建立基于词汇、句子和语篇层面的文体特征向量空间模型,提出用于不完整数据作者身份识别的加权朴素信念分类算法。【结果】加权朴素信念分类算法可以有效改善朴素信念分类算法性能,与目前主流分类算法对比实验表明其在不完整数据集上具有很好的综合性能。【局限】需进一步扩展数据集的样本数量和作者数量,在大数据集上提高文体特征提取效率和作者身份识别的准确性。【结论】提出的多层面文体特征模型和加权朴素信念分类算法在诗词典籍英译作品集上具有较好的准确性和应用性。
- 祁瑞华霍跃红郭旭刘彩虹
- 关键词:典籍英译作者身份不完整数据
- 文本作者身份识别研究综述被引量:1
- 2015年
- [目的/意义]鉴于传统的作者身份识别方法不适用于当前大量涌现的网络文本。综述近年文本作者身份识别的典型方法和关键问题,并进行客观分析和评价,以期为进一步研究提供新的思路。[方法 /过程]分别从应用领域、文体特征选取、作者身份建模和性能评价指标等方面对国内外作者身份识别相关研究现状进行客观分析,梳理相关领域研究发展脉络和趋势。[结果/结论]作者身份识别需要适应短文本、不规范文本、海量、高维和多语种环境,需更具表现和刻画能力的多层面特征和相应的作者身份建模方法,并借助信息检索、机器学习和自然语言处理领域的最新研究成果提高效率和准确率。
- 祁瑞华霍跃红胡润波
- 关键词:身份识别文体特征作者身份评价指标
- 一种正负关联规则的快速查询扩展算法被引量:2
- 2013年
- 将负关联规则引入到查询扩展研究中,提出了新的查询扩展模型,并设计了一种基于正负关联规则的快速查询扩展算法。该算法通过对文本事务数据库的布尔化表示及数据结构的合理分配,采用向量内积策略来产生频繁和非频繁特征词集,并从中挖掘出词间正负关联规则。实验结果表明,该算法能对原查询词进行快速有效的扩展,且仅需扫描1次文本数据库,并具有动态剪枝、不保留中间候选项和节省大量内存等优点,对信息检索中查询扩展的研究具有参考价值。
- 刘彩虹祁瑞华刘强
- 关键词:数据挖掘负关联规则信息检索查询扩展
- 中文微博作者身份识别研究被引量:9
- 2017年
- 本文针对中文微博篇幅短小、无间隔标记等特点,建立了由词汇特征、浅层句法和深层句法特征集组成的中文微博作者文体特征模型,选取支持向量机、序列最小优化支持向量机、朴素贝叶斯和决策树算法在公开微博语料上进行算法对照实验、特征集组合实验和各组文体特征的作者身份识别实验。实验结果验证了本文模型在中文微博作者身份识别任务中的高准确率、召回率和时间效率。
- 祁瑞华郭旭刘彩虹
- 关键词:中文
- 基于多层面文体特征的博客作者身份识别研究被引量:14
- 2015年
- 传统的文体风格特征模型不适用于当前大量涌现的网络文本。本文针对以博客为代表的网络文本篇幅短小、表达方式丰富灵活的特点,以内容无关为原则,分别抽取字符特征、词汇特征、句法特征和文本布局等特征,建立了由词汇特征、浅层句法特征、深层句法特征和结构特征组成的多层面文体风格特征模型,并选取朴素贝叶斯、决策树、序列最小优化支持向量机和大规模线性分类支持向量机算法在公开博客语料上进行对照实验。实验结果验证了各个层面特征在作者身份识别中的作用,表明了本文方法的准确性、通用性及其在短文本上的鲁棒性。
- 祁瑞华杨德礼郭旭刘彩虹
- 关键词:文体特征作者身份