杨洁 作品数:7 被引量:35 H指数:2 供职机构: 沈阳航空工业学院 更多>> 发文基金: 教育部科学技术研究重点项目 国家高技术研究发展计划 辽宁省自然科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 更多>>
基于TextRank的多文档关键词抽取技术 本文提出一种基于TextRaak的多文档关键词抽取方法,该方法利用ATFPDF方法计算文档集中的词语权重,抽取权重较大的实词为候选关键词,并根据候选关键诃之问的语义相似关系建立TextRank模型,递归计算至收敛,最后生... 杨洁 季铎 蔡东风 代翠关键词:多文档 语义相似度 文献传递 基于联合权重的多文档关键词抽取技术 被引量:18 2008年 该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×ProportionalDocument Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词。该方法综合考虑了词语的频率,词性以及词语之间的语义相似性等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高3%,召回率提高7%,F-measure提高4.4%。 杨洁 季铎 蔡东风 林晓庆 白宇关键词:计算机应用 中文信息处理 多文档 语义相似度 基于TeztRank的多文档关键词抽取技术 本文提出一种基于TextRank的多文档关键词抽取方法,该方法利用ATF*PDF方法计算文档集中的词语权重,抽取权重较大的实词为候选关键词,并根据候选关键词之间的语义相似关系建立TextRank模型,递归计算至收敛,最后... 杨洁 季铎 蔡东风 代翠关键词:多文档 语义相似度 关键词抽取 词语权重 文献传递 基于联合权重的多文档关键词抽取技术 本文对内容相近的多个文档抽取关键词。考虑到TF*IDF方法仅适于计算词语在单个文档中的权重,本文提出一种计算词语权重的方法ATF*PDF(Average Term Frequency*Proportional Docum... 杨洁 季铎 蔡东风 白宇关键词:多文档 语义相似度 文献传递 统计和规则相结合的汉语最长名词短语自动识别 被引量:17 2008年 在分析汉语最长名词短语特点的基础上,提出了一种统计和规则相结合的汉语最长名词短语自动识别方法:通过实验词及词性的不同组合选择特征集合,基于该特征训练得到条件随机场(CRF)识别模型;分析错误识别结果,结合最长名词短语的边界信息和内部结构信息构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面的不足。实验结果表明,用统计和规则相结合的方法识别最长名词短语是有效的,系统开放测试结果F值达到了90.2%。 代翠 周俏丽 蔡东风 杨洁关键词:计算机应用 中文信息处理 条件随机场 基于联合权重的多文档关键词抽取技术 本文对内容相近的多个文档抽取关键词,考虑到TF*IDF方法仅适于计算词语在单个文档中的权重,提出了一种计算词语权重的方法ATF*PDF。此方法能计算词语在多文档中的权重。首先对文档词语进行权重计算选取候选关键词,然后结合... 杨洁 季铎 蔡东风 白宇关键词:文字处理 关键词提取 语义分析 数理语言学 文献传递 水具(电热型) 1.外观设计产品的名称:水具(电热型)。;2.外观设计产品的用途:烧水。;3.外观设计的设计要点:造型。;4.指定一幅最能表明设计要点的图片或者照片:主视图。 杨洁 庞冕 张强文献传递