您的位置: 专家智库 > >

浙江省自然科学基金(M603025)

作品数:4 被引量:112H指数:3
相关作者:谌志群张国煊更多>>
相关机构:杭州电子科技大学更多>>
发文基金:浙江省自然科学基金更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 4篇中文期刊文章

领域

  • 3篇自动化与计算...
  • 1篇文化科学

主题

  • 3篇文本挖掘
  • 2篇信息处理
  • 2篇数据挖掘
  • 2篇中文
  • 2篇中文信息
  • 2篇中文信息处理
  • 2篇相似度
  • 2篇相似度计算
  • 1篇信息检索
  • 1篇语言处理
  • 1篇语义检索
  • 1篇中文WEB
  • 1篇中文文本
  • 1篇中文文本挖掘
  • 1篇自然语言
  • 1篇自然语言处理
  • 1篇文本聚类
  • 1篇文档
  • 1篇聚类
  • 1篇关联规则

机构

  • 4篇杭州电子科技...

作者

  • 4篇谌志群
  • 3篇张国煊

传媒

  • 1篇情报科学
  • 1篇模式识别与人...
  • 1篇情报学报
  • 1篇杭州电子科技...

年份

  • 1篇2009
  • 1篇2008
  • 1篇2007
  • 1篇2005
4 条 记 录,以下是 1-4
排序方式:
基于浅层文本分析的中文Web信息检索被引量:1
2008年
为了提高信息检索效率,在中文Web信息检索中引入了浅层文本分析技术。首先提取文本句子的谓词及与谓词直接关联的前置体词和后继体词。然后在将谓词转换成概念化表达的基础上,获取表达文本语义的语义向量。提出了一个语义向量相似度计算算法,用语义向量的相似度来度量文档之间的语义相似度。与主流网络搜索引擎比较,系统查准率方面有了较大提高。
谌志群张国煊
关键词:中文信息处理信息检索语义检索相似度计算
文本挖掘研究进展被引量:56
2005年
文本挖掘又称为文本数据挖掘或文本知识发现,是指在大规模文本集合中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先介绍了文本挖掘的概念,包括文本挖掘的定义、特点、与其它几个研究领域(数据挖掘、信息检索、信息抽取、计算语言学等)的关系;然后讨论了文本挖掘模型、文本特征抽取与中间表示、文本挖掘的分类与实现技术;最后介绍了几个文本挖掘产品。
谌志群张国煊
关键词:文本挖掘数据挖掘自然语言处理关联规则文本聚类
XML文档相似度计算方法研究被引量:5
2009年
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准。随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点。XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术。XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度。本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评。
谌志群
关键词:XML文档相似度计算文本挖掘
文本挖掘与中文文本挖掘模型研究被引量:55
2007年
文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先对文本挖掘进行了概述,给出了文本挖掘的定义、特点和研究现状。然后对国内中文文本挖掘的研究现状进行了分析,指出了当前中文文本挖掘研究中存在的主要问题和主要研究方向。最后提出了一个统一的中文文本挖掘模型——UCT-MF。该模型具有层次性、开放性和可扩展性,为中文文本挖掘系统提供了基本体系框架。
谌志群张国煊
关键词:文本挖掘数据挖掘中文信息处理
共1页<1>
聚类工具0