江锦华
- 作品数:9 被引量:8H指数:2
- 供职机构:浙江大学更多>>
- 发文基金:国家自然科学基金浙江省科技计划项目浙江省重大国际科技合作项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于树合并的Deep Web查询接口集成
- 随着在线数据库应用的流行,整个互联网已经被迅速"深化".对于某一特定领域的deep Web,不同的站点往往会提供不同查询能力的查询接口.为了能够集成同一领域内的各个数据源,首先要解决的问题就是查询接口的集成.但是面对数量...
- 陶然江锦华吴羽陈刚
- 关键词:查询接口集成树模型
- 文献传递
- 基于路径连接的XML复杂小枝模式查询处理被引量:1
- 2011年
- 针对可扩展标记语言(XML)查询中具有嵌套OR谓词的复杂小枝模式查询处理,提出一种基于路径连接的查询方法.该方法以路径为分解粒度,结合分支扩展(AOBE)的概念,通过路径连接过程实现对复杂小枝模式查询的整体处理.为了进一步提高算法效率,在已有研究的基础上挖掘相应的优化规则,利用索引跳过那些明显不参与连接的元素的访问和计算.与已有算法相比,基于路径连接的查询方法大大简化了复杂小枝模式查询处理过程,只访问查询叶节点对应的元素,可以显著减少结构连接的操作数目和扫描元素的个数.实验结果表明,该方法能够有效地改善复杂小枝模式查询处理的性能.
- 江锦华吴羽胡天磊陈刚
- 关键词:小枝模式索引
- 实时垂直搜索引擎对象缓存优化策略被引量:2
- 2011年
- 针对实时垂直搜索引擎搜索对象热门度多变和数据抓取由查询驱动等问题,提出一种全新的实时垂直搜索引擎对象缓存优化策略.基于对象及属性间的关联设计热门对象预测模型,预测热门对象的变化趋势;基于用户查询及对象变化符合泊松过程的特点,推导最大化数据新鲜度的计算方法,从理论上给出资源分配和动态平衡的最优策略.大量的对比实验验证了新的缓存优化策略在较少开销增长的前提下,用户查询结果平均新鲜度和准确率均明显优于传统固定频率的缓存策略.
- 周佳庆吴羽江锦华陈刚董轶
- 关键词:缓存策略实时搜索垂直搜索搜索引擎
- 互联网海量数据存储、管理与搜索平台研制及产业化应用
- 陈刚陈纯寿黎但陈珂胡天磊卜佳俊高云君贝毅君王灿曹晖李晓燕吴羽江锦华
- 该项目通过突破面向互联网海量数据存储、处理、检索、反垃圾、个性化推荐、性能优化等一系列关键技术,实现了多项自主创新,成果包括分布式基础存储平台、全系列检索服务、共性支撑服务及配套管理、应用支撑服务模块及开放接口、异构数据...
- 关键词:
- 关键词:互联网多媒体检索海量数据存储
- InfoSigs:一种面向WEB对象的细粒度聚类算法
- 面向WEB对象的细粒度聚类已经成为学术界研究的热点。然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,本文挖掘WEB文档中词汇间的树状概率...
- 盛振华吴羽江锦华寿黎但陈刚
- 文献传递
- XML小枝模式查询处理技术研究
- 随着在电子商务、数字图书馆以及WEB服务等各领域大规模的应用和传播,XML已经成为数据表示和交换的新标准。全世界XML文档的数量正在以惊人的速度增长。与此同时,如何有效的管理和检索日益增长的XML数据,已成为数据库领域的...
- 江锦华
- 关键词:查询优化
- 文献传递
- InfoSigs:一种面向Web对象的细粒度聚类算法被引量:5
- 2010年
- 面向Web对象的细粒度聚类已经成为学术界研究的热点.然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,充分挖掘Web文档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对Web对象的细粒度聚类.算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录间的相似度,减少噪音对合并过程的影响.实验结果表明,InfoSigs算法比传统聚类算法—I-Match和Shingling—在F-Measure值上平均约有21.3%的提高,可以有效地运用到多领域Web对象的聚类问题.
- 盛振华吴羽江锦华寿黎但陈刚
- 关键词:WEB对象
- 基于树合并的Deep Web查询接口集成
- 随着在线数据库应用的流行,整个互联网已经被迅速“深化”.对于某一特定领域的deep Web,不同的站点往往会提供不同查询能力的查询接口.为了能够集成同一领域内的各个数据源,首先要解决的问题就是查询接口的集成.但是面对数量...
- 陶然江锦华吴羽陈刚
- 关键词:查询接口数据库
- 文献传递
- InfoSigs:一种面向WEB对象的细粒度聚类算法
- 面向WEB对象的细粒度聚类已经成为学术界研究的热点。然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求。针对上述挑战,本文挖掘WEB文档中词汇间的树状概率...
- 盛振华吴羽江锦华寿黎但陈刚
- 关键词:信息检索
- 文献传递