杨星
- 作品数:3 被引量:43H指数:2
- 供职机构:河南工业大学更多>>
- 发文基金:河南省基础与前沿技术研究计划项目国家重点实验室开放基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于LDA模型的研究领域热点及趋势分析被引量:13
- 2012年
- 随着研究的不断深入以及信息传播手段的进步,与某个研究领域相关的科学文献越来越多,也越来越容易得到,然而要阅读和分析这些数以千计的文献,仅凭人力已经难于实现对该领域研究重点、研究热点以及趋势进行全面系统地分析。鉴于此,提出一种基于LDA模型对某研究领域在一定时期内的热点及趋势进行自动识别的方法。该方法利用Gibbs抽样计算模型参数,获取领域热点主题以及热点词语,通过按时间后离散的主题演化方法分析热点主题在时间轴上的强度演化。以中文信息处理领域为例,通过对《中文信息学报》2001—2010十年间发表的学术论文进行分析,自动获取中文信息处理领域十年内的研究热点以及热点主题在时间轴上的演化趋势。实验结果初步证明了该方法的有效性。
- 杨星李保利金明举
- 关键词:LDA模型GIBBS抽样
- 基于LDA的话题获取与演化研究
- 随着互联网技术推动信息传播手段的不断进步,互联网用户可以更加容易地从网络上获取某一领域内大量的文本信息。但是获得并不等于认知,在一望无际的信息世界里,受限于有限的时间和空间,任何人都会感到无助。因此,如何快速、准确地从复...
- 杨星
- 关键词:LDA模型
- 文献传递
- 基于LDA模型和话题过滤的研究主题演化分析被引量:29
- 2012年
- 针对目前科学技术文献数量激增、难以从总体上分析把握的现状,提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法.该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取,得到不同数量的话题.然后,通过话题过滤剔除意义有限的话题,并借助简单启发式规则选择种子话题.最后,再利用语义相关度将相邻时间片内内容相近的种子话题联系起来,以得到研究主题的演化趋势.实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,避免了无意义话题对研究主题演化的负面影响.
- 李保利杨星
- 关键词:LDA模型