您的位置: 专家智库 > >

官琴

作品数:2 被引量:66H指数:2
供职机构:南京大学信息管理学院更多>>
发文基金:中国地震局地震科技星火计划江苏省自然科学基金国家社会科学基金更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...
  • 1篇文化科学

主题

  • 1篇停用词
  • 1篇情报
  • 1篇情报学
  • 1篇情报学理论
  • 1篇中文
  • 1篇中文文本
  • 1篇中文文本聚类
  • 1篇文本聚类
  • 1篇聚类
  • 1篇S模
  • 1篇S模型
  • 1篇BI
  • 1篇CRF
  • 1篇MEANS

机构

  • 2篇南京大学

作者

  • 2篇邓三鸿
  • 2篇王昊
  • 2篇官琴
  • 1篇苏新宁

传媒

  • 1篇情报学报
  • 1篇数据分析与知...

年份

  • 1篇2020
  • 1篇2017
2 条 记 录,以下是 1-2
排序方式:
基于深度学习的情报学理论及方法术语识别研究被引量:20
2020年
理论、方法的研究是学科不断发展前行的动力,了解掌握学科领域当前理论及方法的应用、发展情况是一项十分重要的工作。本文利用命名实体识别任务的分支——术语识别,对情报学理论方法进行研究,通过采集我国近20年来情报学领域相关文献20000篇左右,应用深度学习模型——Bi-LSTM-CRFs进行大规模语料训练与测试,通过实验验证其可行性并探究各实验变量对模型效果的影响,以求最大限度提高模型识别的效果。实验结果表明,对于理论方法术语等复杂实体,基于词切分的语料识别效果要优于基于字切分的语料;术语实体的长度对于识别效果也有一定影响,术语长度过大时(字数≥6),识别效果下降明显;同时,训练语料量与识别效果呈正相关关系,语料量越大,识别效果越好;实体的类型和数量直接影响识别结果,具有明显构词特征的实体识别效果较好;在特征引入实验中发现除拼音特征外,词性、词长以及词向量特征均能够对F1值有所提高,其中词向量和词性特征的提升效果最为明显。
王昊邓三鸿邓三鸿官琴
关键词:情报学
中文文本聚类常用停用词表对比研究被引量:46
2017年
【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素,其中两字停用词作用效果最为明显。【局限】实验文本类型及数量有限,同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较,未对停用词按照类别分类进行实验分析。【结论】停用词表对于文本聚类准确度有很大的影响,构建或选取适宜的中文停用词表极为重要。同时,过度增加停用词的数量并不会一直改善聚类结果。
官琴邓三鸿王昊
关键词:文本聚类停用词
共1页<1>
聚类工具0