王映
- 作品数:6 被引量:56H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于N元汉字串模型的文本表示和实时分类的研究与实现被引量:10
- 2005年
- 该文提出了一种基于N元汉字串特征的文本向量空间表示模型,用这个表示模型实现了一个文本实时分类系统。对比使用词语做为特征的文本向量空间模型,这种新的模型由于使用快速的多关键词匹配技术,不使用分词等复杂计算,可以实现实时文本分类。由于N元汉字串的文本表示模型中的特征抽取中不需要使用词典分词,从而可以提取出一些非词的短语结构,在特殊的应用背景,如网络有害信息判别中,能自动提取某些更好的特征项。实验结果表明,使用简单的多关键词匹配和使用复杂的分词,对分类系统的效果影响是很小的。该文的研究表明N元汉字串特征和词特征的表示能力在分类问题上基本是相同的,但是N元汉字串特征的分类系统可以比分词系统的性能高出好几倍。该文还描述了使用这种模型的自动文本分类系统,包括分类系统的结构,特征提取,文本相似度计算公式,并给出了评估方法和实验结果。
- 王映常毅谭建龙白硕
- 关键词:中文信息处理向量空间模型关键词匹配
- 数据流选择查询索引技术研究
- 随着互联网技术的发展和广泛应用,流动数据管理在各种应用系统中变得越来越重要.和传统的数据库管理系统不同,数据流管理系统以查询为中心,系统中预先注册有成千上万个持续查询;流动的数据源源不断的到达,一旦流过就不能再被访问.为...
- 王映
- 关键词:数据流管理系统
- 文献传递
- NIDS签名获取及其测试数据的生成被引量:2
- 2006年
- 当实现一个新的NIDS检测算法时,很难获得一个实用的签名库及其测试数据。该文介绍了怎样利用Snort的签名库,以及怎样生成相应的测试数据,最后给出了一些测试数据。
- 王映谭建龙沈星星刘萍
- 关键词:测试数据生成SNORT
- JavaScript引擎在动态网页采集技术中的应用被引量:43
- 2004年
- 怎样提取网页中由JavaScript脚本动态生成的URL,一直是网页采集器设计的一个难题,文中给出了一个基于JavaScript引擎的通用的解决办法和模块实现以及测试结果。
- 王映于满泉李盛韬王斌余智华
- 关键词:网页采集
- 一种快速的多模式串匹配算法及其在实时汉语文本分类系统中的应用
- 本文提出了一种快速的多模式串匹配算法,并且将它应用在实时汉语文本分类系统的文本向量化中。本文对比了匹配算法和传统的分词方法这两种文本向量化方法,衡量了使用这两种方法生成向量的相似度和所需时间,并且分析了产生差异的原因。实...
- 张鑫程学旗谭建龙王映
- 关键词:字符串匹配文本分类向量空间
- 文献传递
- 一种空间更优的数据流查询包含编码区间索引被引量:1
- 2009年
- 给出一种基于CEI(containment-encoded intervals)的存储优化的数据流查询区间索引结构.在数据流处理中涉及到大量的数值型区间查询操作,构造一个基于主存并支持快速查询的区间索引结构十分必要.对CEI索引结构而言,虽然支持高速查询,但存储利用率较低.针对该问题,提出了索引结构ACEI(advanced-CEI).在CEI索引结构的基础上,通过数据结构调整和参数优化,ACEI可在保持原有查询速度的前提下将CEI的空间复杂度由O(R+N·W/L+N·log(L))降为O(sqrt(R·N)+N·sqrt(W)).实验结果表明,ACEI结构可以极大地提高索引结构的存储利用率,并且可以用于大端点值域下的区间索引.
- 姚秋林王映刘萍郭莉
- 关键词:数据流持续查询