浙江省自然科学基金(M603025)
- 作品数:4 被引量:112H指数:3
- 相关作者:谌志群张国煊更多>>
- 相关机构:杭州电子科技大学更多>>
- 发文基金:浙江省自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于浅层文本分析的中文Web信息检索被引量:1
- 2008年
- 为了提高信息检索效率,在中文Web信息检索中引入了浅层文本分析技术。首先提取文本句子的谓词及与谓词直接关联的前置体词和后继体词。然后在将谓词转换成概念化表达的基础上,获取表达文本语义的语义向量。提出了一个语义向量相似度计算算法,用语义向量的相似度来度量文档之间的语义相似度。与主流网络搜索引擎比较,系统查准率方面有了较大提高。
- 谌志群张国煊
- 关键词:中文信息处理信息检索语义检索相似度计算
- 文本挖掘研究进展被引量:56
- 2005年
- 文本挖掘又称为文本数据挖掘或文本知识发现,是指在大规模文本集合中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先介绍了文本挖掘的概念,包括文本挖掘的定义、特点、与其它几个研究领域(数据挖掘、信息检索、信息抽取、计算语言学等)的关系;然后讨论了文本挖掘模型、文本特征抽取与中间表示、文本挖掘的分类与实现技术;最后介绍了几个文本挖掘产品。
- 谌志群张国煊
- 关键词:文本挖掘数据挖掘自然语言处理关联规则文本聚类
- XML文档相似度计算方法研究被引量:5
- 2009年
- XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准。随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点。XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术。XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度。本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评。
- 谌志群
- 关键词:XML文档相似度计算文本挖掘
- 文本挖掘与中文文本挖掘模型研究被引量:55
- 2007年
- 文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先对文本挖掘进行了概述,给出了文本挖掘的定义、特点和研究现状。然后对国内中文文本挖掘的研究现状进行了分析,指出了当前中文文本挖掘研究中存在的主要问题和主要研究方向。最后提出了一个统一的中文文本挖掘模型——UCT-MF。该模型具有层次性、开放性和可扩展性,为中文文本挖掘系统提供了基本体系框架。
- 谌志群张国煊
- 关键词:文本挖掘数据挖掘中文信息处理