操卫平
- 作品数:3 被引量:16H指数:2
- 供职机构:北京工业大学计算机学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于结构化向量空间模型的中文信息检索系统研究与实现
- 信息检索(Information Retrieval, IR)是从数据集中提取相关文档和信息的过程。Internet的出现为人们提供了一种新的信息检索方式,也把信息检索的处理数据从结构化逐步转向半结构化、乃至无结构化。随...
- 操卫平
- 关键词:信息检索搜索引擎向量空间模型
- 文献传递
- 结构化向量空间模型及其在Web信息检索中的应用被引量:4
- 2008年
- 针对Web信息检索的特点,通过分析传统向量空间模型在Web检索中存在的若干问题,对传统向量空间模型进行改进,并提出结构化向量空间模型,其基本思想是将Web文档表达为具有一定逻辑结构的向量,即结构化向量组.每个结构化向量组由若干子向量构成,每个子向量对应Web文档中相对应独立的文本段.理论分析和实验证明,该方法能提高向量空间模型在信息检索精度和召回率方面的性能.
- 李玉鑑操卫平周兰珍
- 关键词:向量空间模型信息检索相似度搜索引擎
- 基于DF和CHI的联合特征提取方法及其应用被引量:11
- 2008年
- 分析了与类别信息有关的CHI统计特征选取方法和与类别无关的文档频率特征选取方法,在此基础上提出文档频率与CHI统计相结合的特征提取方法,以选取分类能力强的词项特征,从而提高网页分类效果.以该联合特征提取方法为基础构建的网页分类系统,在参加SEWM2007分类评测的8个代表队中,取得Macro-F1值排名第3的成绩.
- 李玉鑑周兰珍操卫平
- 关键词:文档频率网页分类