您的位置: 专家智库 > >

马宏远

作品数:11 被引量:16H指数:2
供职机构:国家互联网应急中心更多>>
发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 6篇期刊文章
  • 3篇会议论文
  • 2篇专利

领域

  • 9篇自动化与计算...

主题

  • 6篇引擎
  • 6篇搜索
  • 6篇搜索引擎
  • 6篇索引
  • 4篇缓存
  • 4篇查询
  • 3篇信息检索
  • 2篇舆情
  • 2篇指标体系
  • 2篇日志
  • 2篇日志分析
  • 2篇联网
  • 2篇互联
  • 2篇互联网信息
  • 2篇互联网舆情
  • 2篇基础数据
  • 2篇感知
  • 2篇层次化
  • 2篇查询结果
  • 1篇用户

机构

  • 11篇中国科学院
  • 5篇国家互联网应...
  • 4篇中国科学院研...
  • 3篇中国科学院大...
  • 1篇北京邮电大学

作者

  • 11篇马宏远
  • 6篇王斌
  • 3篇包秀国
  • 1篇熊锦华
  • 1篇刘玮
  • 1篇程学旗
  • 1篇邹学强
  • 1篇袁庆升
  • 1篇黄晓军

传媒

  • 3篇中文信息学报
  • 2篇计算机研究与...
  • 1篇通信学报

年份

  • 1篇2017
  • 2篇2016
  • 2篇2015
  • 3篇2012
  • 3篇2011
11 条 记 录,以下是 1-10
排序方式:
一种基于预取感知接纳策略的查询结果缓存方法
针对搜索引擎查询结果缓存问题,提出了一种基于预取感知接纳策略的查询结果缓存方法,用于提高搜索引擎检索系统性能.查询结果预取导致查询结果页码的缓存缺失率具有显著差异性,结合该特性设计预取感知接纳策略,该策略包含查询评估模型...
马宏远王斌
关键词:搜索引擎
一种支持混合语言的并行查询纠错方法被引量:1
2016年
中文信息检索系统中的查询语句包含中文字、拼音、英文等多种形式,而有些查询语句过长,不利于纠错处理。现有的查询纠错方法不能很好的解决中文检索系统中的混合语言与中文长查询的问题。为了解决上述两个问题,该文提出了一种支持混合语言的并行纠错方法。该方法通过对混合语言统一编码,建立统一编码语言模型和异构字符词典树,并根据语言特点制定相应的编辑规则对查询词语进行统一处理,其中,针对中文长查询,提出双向并行的纠错模型。为了并行处理查询语句,我们在字符词典树和语言模型的基础上提出了逆向字符词典树和逆向语言模型的概念。模型中使用的训练语料库是从用户查询日志、网页点击日志、网页链接信息等文件中提取的高质量文本。实验表明,与单向查询纠错相比,支持混合语言的并行纠错方法在准确率上提升了9%,召回率降低了3%,在速度上提升了40%左右。
颛悦熊锦华马宏远程舒杨程学旗
关键词:语言模型
基于日志分析的搜索引擎查询结果缓存研究被引量:4
2012年
缓存是有效减少响应时间和系统负载的关键技术,是搜索引擎系统结构研究的重要领域之一.通过对搜狗搜索引擎在近1个月内约1500万条用户查询日志进行分析和研究,针对查询结果缓存,从查询局部性、缓存策略、缓存容量、工作负载周期性等方面进行分析.分析表明,混合缓存策略以及提高缓存容量相结合的技术能有效提高搜索引擎系统性能.
马宏远王斌
关键词:信息检索搜索引擎缓存
基于微博能见度和用户行为特征的转发行为预测研究
转发是消息在微博网络中得到持续传播的重要方式,微博转发预测对微博突发性检测和微博影响力评估具有重要意义.现有微博转发预测大多集中在消息属性及传播网络特征的研究,而微博是否会被转发与用户个体行为具有紧密相关性,本文从微博对...
刘玮贺敏马宏远王博王丽宏
关键词:用户兴趣
基于日志分析的搜索引擎查询结果缓存研究
缓存是有效减少响应时间和系统负载的关键技术,是搜索引擎系统结构研究的重要领域之一。通过对搜狗搜索引擎在近1个月内约1 500万条用户查询日志进行分析和研究,针对查询结果缓存,从查询局部性、缓存策略、缓存容量、工作负载周期...
马宏远王斌
关键词:信息检索搜索引擎查询日志缓存
基于层次分析的微博短文本特征计算方法被引量:9
2016年
为了建立用户精准兴趣模型以有效发现具有相似兴趣的用户群,提出了一种针对微博的短文本特征计算方法用于聚类算法,提升聚类效果以更好地挖掘微博用户的相似兴趣集合。该方法融合了微博转发数、评论数、点赞数等多个关键指标来度量微博短文本特征的重要性。同时,引入层次分析技术,改进了传统的tf-idf特征计算方法,并利用经典文本聚类算法进行实验。实验结果表明,改进后的短文本特征计算方法与传统的tf-idf特征计算方法相比,在类内集中度和类间分散度上取得了更好的效果。
邹学强包秀国黄晓军马宏远袁庆升
关键词:层次分析文本聚类
一种基于查询特性的查询结果缓存与预取方法
2011年
针对搜索引擎查询结果缓存与预取问题,该文提出了一种基于查询特性的搜索引擎查询结果缓存与预取方法,该方法包括用来指导预取的查询结果页码预测模型和缓存与预取算法框架,用于提高搜索引擎系统性能。通过对国内某著名中文商业搜索引擎的某段时间的用户查询日志分析得出,用户对不同查询返回的查询结果所浏览的页数具有显著的非均衡性,结合该特性设计查询结果页码预测模型来进行预取和分区缓存。在该搜索引擎两个月的大规模真实用户查询日志上的实验结果表明,与传统的方法相比,该方法可以获得3.5%~8.45%的缓存命中率提升。
马宏远王斌
关键词:搜索引擎查询结果缓存
一种基于预取感知接纳策略的查询结果缓存方法
2012年
针对搜索引擎查询结果缓存问题,提出了一种基于预取感知接纳策略的查询结果缓存方法,用于提高搜索引擎检索系统性能.查询结果预取导致查询结果页码的缓存缺失率具有显著差异性,结合该特性设计预取感知接纳策略,该策略包含查询评估模型以及模型特征选择方法.在该策略基础上,设计了一种查询结果缓存方法.在该搜索引擎两个月的大规模真实用户查询日志上的实验结果表明,与传统的典型方法相比,该方法可以获得6.38%~11.99%的缓存命中率提升.
马宏远王斌
关键词:缓存查询结果搜索引擎信息检索
一种层次化的互联网舆情指标体系的方法及系统
本发明公开了一种层次化的互联网舆情指标体系的方法及系统,该方法包括建立该指标体系的层次化架构,包括最上层的整体态势指标、位于该整体态势指标下层的中间层五大维度细分指标、位于该中间层五大维度细分指标下层的下层指标、位于最底...
包秀国马宏远杜慧王博贺敏程学旗李雄刘玮刘春阳张瑾程工陈训逊王丽宏云晓春余智华
文献传递
基于用户特性的搜索引擎查询结果缓存与预取被引量:2
2012年
针对搜索引擎查询结果缓存与预取问题,与传统的基于查询特性相关的方法不同,提出了一种基于用户特性的缓存与预取方法,用于提高搜索引擎系统性能,尤其针对部分用户效果更显著。通过对国内某著名商业搜索引擎用户的查询贡献分析得出,用户对搜索引擎的贡献具有长尾分布特性,结合该特性设计查询结果预测模型来进行预取和分区缓存。在该搜索引擎两个月的大规模真实用户查询日志上的实验结果表明,与传统的基于查询特性的典型方法相比,该方法可以获得3.03%~4.17%的命中率提升,对于查询贡献最大的0.25%的用户群体,可以获得20.52%~28.2%的命中率提升。
马宏远王斌
共2页<12>
聚类工具0