赵倩
- 作品数:4 被引量:1H指数:1
- 供职机构:中央民族大学更多>>
- 发文基金:国家自然科学基金国家语委科研项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 藏汉跨语言话题检测与跟踪
- 互联网的高速发展使得网络成为了人们获取信息的主要来源。在网络信息日渐繁杂的背景下,如何使人们快速地获取有用的信息,是当前亟需解决的问题。作为解决这一问题的关键技术,话题检测与跟踪旨在从海量的新闻报道流中发现话题以及跟踪已...
- 赵倩
- 文献传递
- 藏汉跨语言话题模型构建及对齐方法研究被引量:1
- 2017年
- 如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。目前大多数研究集中在英汉跨语言信息处理方面,针对藏汉跨语言研究较少。如何根据藏语、汉语的特点,并结合目前藏语信息处理的研究现状,实现藏汉多角度的社会网络关系关联,同步发现关注话题并进行数据比较,是迫切需要解决的问题。该文在藏汉可比语料的基础上,利用词向量对文本词语进行语义扩展,进而构建LDA话题模型,并利用Gibbs sampling进行模型参数的估计,抽取出藏语和汉语话题。在LDA话题模型生成的文档-话题分布的基础上,提出一种基于余弦相似度、欧氏距离、Hellinger距离和KL距离四种相似度算法的投票方法,来实现藏汉话题的对齐。
- 孙媛赵倩
- 关键词:LDA
- 一种跨语言话题检测方法及系统
- 本发明公开了一种跨语言话题检测方法及系统。其中,该方法包括构建第一语言和第二语言的可比语料库;基于可比语料库分别构建第一语言话题模型和第二语言话题模型;在第一语言话题模型和第二语言话题模型生成的文档‑话题概率分布的基础上...
- 孙媛赵倩
- 一种跨语言话题检测方法及系统
- 本发明公开了一种跨语言话题检测方法及系统。其中,该方法包括构建第一语言和第二语言的可比语料库;基于可比语料库分别构建第一语言话题模型和第二语言话题模型;在第一语言话题模型和第二语言话题模型生成的文档‑话题概率分布的基础上...
- 孙媛赵倩
- 文献传递