国家高技术研究发展计划(2007AA01Z438) 作品数:6 被引量:32 H指数:3 相关作者: 张华平 刘金刚 程学旗 杨森 陈友 更多>> 相关机构: 中国科学院 中国科学院研究生院 首都师范大学 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
基于聚团词的大规模文本转载识别算法 被引量:2 2010年 文本转载识别是指从大规模文本库中检测出内容相同或相近的文档集合,在热门话题检测、搜索引擎结果凝练、学术文章抄袭识别等诸多应用上,存在普遍的需求。为适应网络文本转载形式的日趋多样化,并进一步提升实用系统效率,对各种文本特征及比较算法进行了研究分析,提出了基于聚团词的大规模文本转载识别算法,即:依据词语的分布属性,识别并提取高得分聚团词用于表征文本,之后通过对文本集进行扩展线性比较与多维比较两次操作,最终筛选出转载识别结果。对比实验表明:该算法在准确率、召回率与效率上有较高的综合性能。 张京阳 张华平 刘金刚关键词:向量空间模型 WWW论坛采集关键技术研究 被引量:1 2010年 论坛是互联网中最活跃的部分,蕴涵着丰富的信息。论坛采集是对论坛信息检索和挖掘的重要基础,然而传统的广度优先算法不能有效的获取论坛信息。针对论坛的深层链接、存在大量功能链接和无效链接及内容重复链接等特点,本文提出了一种论坛采集算法,能有效的解决以上难题。经过实验表明,论坛采集的覆盖率和有效率明显优于传统算法,并且应用在中科院计算所舆情监测平台上取得了良好的效果。 李恒训 张华平 刘金刚关键词:信息检索 舆情监测 面向网络论坛的突发话题发现 被引量:16 2010年 每天有大量的信息涌现在论坛上,用户可以通过论坛获知目前国际国内正在发生的一些突发事件。如何使用机器自动化的方法检测论坛中的突发话题已经成为搜索引擎以及网络挖掘系统的一项基础任务。话题检测与跟踪模型(TDT)可以很好的解决话题发现问题,但是TDT处理的对象是新闻语料,与论坛内容相比,新闻语料更准确、严谨、规范。TDT中使用的方法不适合用语随意的论坛。因此在网络论坛这种噪音环境下的话题检测面临着一定的困难与挑战。文中提出一种基于噪音过滤的话题发现模型,它从内容和用户参与度两个角度来检测论坛话题。在"水木社区"的"水木特快"上进行了相关的实验,实验结果表明该文提出的模型不仅可以检测突发话题,而且可以检测与这些话题相对应的用户社区。 陈友 程学旗 杨森关键词:计算机应用 中文信息处理 网络论坛 时间序列 结合属性分布特征的模式匹配算法 本文提出了一种结合属性分布特征的Web模式匹配算法,属性分布特征包括属性对互斥特征和属性对共现特征。属性对互斥特征由属性对的互斥性和出现次数计算得出,这个特征隐含了属性对的语义相似程度。为了充分利用传统的属性名、属性值相... 王宇 方滨兴 吴博 宋林海 郭岩关键词:约束聚类 文献传递 结合属性分布特征的模式匹配算法 2010年 该文提出了一种结合属性分布特征的Web模式匹配算法,属性分布特征包括属性对互斥特征和属性对共现特征。属性对互斥特征由属性对的互斥性和出现次数计算得出,这个特征隐含了属性对的语义相似程度。为了充分利用传统的属性名、属性值相似性特征,该文通过机器学习方法结合属性对互斥特征与相似性特征进行属性匹配。并以潜在的匹配属性对为基础,引入有约束的属性聚类方法进行Web模式匹配,聚类方法的约束条件来自属性对共现特征。实验结果表明,相对于仅使用相似性特征的方法,在不同的实验设置下,结合属性分布特征的Web模式匹配算法将F值提高了0.13到0.55。 王宇 方滨兴 吴博 宋林海 郭岩关键词:计算机应用 中文信息处理 约束聚类 基于Multi-Agent的媒体舆论引导仿真 本文使用multi-agent的建模思想,以现实为基础建立了一个舆论涌现的仿真模型。该模型主要由个体和媒体以及它们之间的规则组成。个体的属性包括了个体之间的信任度、个体观点的可信度和个体的从众性;媒体的属性包括媒体的影响... 孙晓茜 林思明 刘悦 程学旗关键词:舆论 媒体 文献传递 面向大规模语料的语言模型研究新进展 被引量:6 2009年 N元语言模型是统计机器翻译、信息检索、语音识别等很多自然语言处理研究领域的重要工具.由于扩大训练语料规模和增加元数对于提高系统性能很有帮助,随着可用语料迅速增加,面向大规模训练语料的高元语言模型(如N≥5)的训练和使用成为新的研究热点.介绍了当前这个问题的最新研究进展,包括了集成数据分治、压缩和内存映射的一体化方法,基于随机存取模型的表示方法,以及基于分布式并行体系的语言模型训练与查询方法等几种代表性的方法,展示了它们在统计机器翻译中的性能,并比较了这些方法的优缺点. 骆卫华 刘群 白硕关键词:语言模型 数据压缩 布隆过滤器 一种基于索引模型融合的面向问答的信息检索方法 IR4QA(Information Retrieval for Question Answering)是日本国立情报局组织举办的第7届国际跨语言检索评测(NTCIR-7)提出的新任务,其目的是研究信息检索和问答技术融合的... 郭稷 骆卫华关键词:信息检索 文献传递 基于主题词的网络热点话题发现 网络话题层出不穷,往往会引发重大舆情危机,如何快速高效的从海量信息中发现热点是一重大挑战。本文提出了一种基于主题词的网络热点话题发现算法。其基本思想为:首先综合主题词表和有意义串识别结果生成主题词候选集;然后对候选集进行... 李恒训 张华平 秦鹏 于满泉 刘金刚关键词:信息检索 主题词提取 聚类 舆情 文献传递 Blog Post Extraction Using Title Finding With the development of Web2.0,web mining applications pay more attention to blog pages.In order to prevent no... Linhai Song~(1,2),Xueqi Cheng~1,Yan Guo~1,Bo Wu~(1,2),Yu Wang~(1,2+) 1 Institute of Computing Technology,Chinese Academy of Sciences,Beijing 2 Graduate School of the Chinese Academy of Sciences,Beijing关键词:BLOG POST SVM 文献传递