您的位置: 专家智库 > >

张玥

作品数:4 被引量:2H指数:1
供职机构:复旦大学计算机科学技术学院更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 2篇会议论文

领域

  • 4篇自动化与计算...

主题

  • 3篇拷贝
  • 3篇拷贝检测
  • 2篇索引
  • 2篇文本
  • 2篇句子
  • 2篇分布式
  • 2篇分布式索引
  • 2篇MAP-RE...
  • 1篇特征抽取
  • 1篇抽取

机构

  • 4篇复旦大学

作者

  • 4篇俞昊旻
  • 4篇张奇
  • 4篇黄萱菁
  • 4篇张玥

传媒

  • 2篇中文信息学报
  • 1篇第六届全国信...

年份

  • 2篇2011
  • 2篇2010
4 条 记 录,以下是 1-4
排序方式:
基于Low-IDF-SIG的句子重复检测
2011年
随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,不能有效地检测出两个文档中只有一部分互为拷贝的情况。而句子级别的重复检测正是解决这类问题的一个必要步骤。该文提出了一种快速有效的句子级别的特征抽取方法——Low-IDF-Sig算法,算法依据选定的先行词从句子中抽取出改进的Shingle特征以表示句子内容。真实语料库上的实验结果证明该文提出的算法能有效地提高句子级别重复检测任务的效率和精度。
俞昊旻张玥张奇黄萱菁
关键词:特征抽取
面向文本拷贝检测的分布式索引被引量:2
2011年
如何对大规模文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。通常的拷贝检测算法都需要借助倒排索引。因此良好的索引结构对于算法性能至关重要。同时,随着文档集规模的增大,单机实现的索引已经不能满足拷贝检测的需求,需要引入分布式存储的索引。为了适应文档集规模的不断增大,良好的分布式索引应该同时具备较高的效率和可扩展性。为此该文比较了两种不同的分布式索引结构,Term-Split索引和Doc-Split索引,并且给出了Map-Reduce范式下建立这两种索引的实现,以及以这两种索引为基础的文本拷贝检测方法,Term-Split方法和Doc-Split方法。在WT10G文档集上进行的实验表明Doc-Split方法具有更好的效率和可扩展性。
张玥俞昊旻张奇黄萱菁
关键词:拷贝检测MAP-REDUCE
面向文本拷贝检测的分布式索引
如何对大规模文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。通常的拷贝检测算法都需要借助倒排索引。因此好的索引结构对于算法性能至关重要。同时,随着文档集规模的增大,单机实现的索引已经不能满足拷贝检测的需求,...
张玥俞昊旻张奇黄萱菁
关键词:拷贝检测MAP-REDUCE
文献传递
基于Low-IDF-SIG的句子重复检测
随着互联网上数据的爆炸式的增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的拷贝检测的算法均着重考虑文档级别,这些方法不能有效地检测出两个文档中只有一部分...
俞昊旻张玥张奇黄萱菁
关键词:拷贝检测
文献传递
共1页<1>
聚类工具0