将网页分成若干部分,对各个table的长宽比属性进行比较,去掉长宽比很大的部分,并对其余table中的内容进行分析,根据内部是否存在和段落文字有关的标签或
等来区分主题内容和噪音内容,在此基础上去除噪音内容。对来自CWT200G语料的132 559个网页进行测试后的结果表明,该方法可以有效地去除网页噪音,使索引文件减少约75%,大大地提高了检索速度,准确度也得到一定提高。
时达明林鸿飞杨志豪关键词:信息检索网页噪音- 中文文本体裁的自动分类机制被引量:8
- 2006年
- 文本按体裁自动分类属于按文本的形式分类的范畴,所以它与按内容自动分类问题有许多的不同之处,本文提出了一种关于中文文本体裁自动分类的新机制。在体裁分类过程中首要的问题是分类特征的选取,体裁分类特征项分为两种方式加以描述,一是集合形式,如基于分类词典和语料统计的政论性词汇和情感词汇等,二是规则形式,如公文标识信息和条文句等。基于根据特征之间的关联性和差异性,采用样本分布决策的方法抽取相应的特征项。最后利用支撑向量机算法进行自动分类。该机制已经在五类体裁的语料上得到实现,并获得了较好的效果。
- 方鸷飞林鸿飞杨志豪赵晶
- 关键词:计算机应用中文信息处理体裁分类支撑向量机
- 一种应用奇异值分解的RankBoost排序学习方法
- Learning to rank(排序学习)已经成为当今信息检索领域研究和讨论热点。它运用信息检索和机器学习领域的方法,结合相关性判断条件提供与查询更加相关的信息。当前的排序算法主要集中于相关性标注数据的使用,本文通过对...
- 林原林鸿飞苏绥
- 关键词:信息检索奇异值分解
- 文献传递
- 基于N-Level VSM在Web信息检索中的研究被引量:3
- 2006年
- 分析了传统向量空间检索模型在Web信息检索中的不足,给出了基于N-Level向量空间模型,这种模型是将一篇文档从逻辑上划分为N个相对独立的文本段,然后按照文本段的内容建立文本特征向量以及文本权值向量,在此基础上可以更加精确地定义特征值向量和相似度的计算方法,使之能比较好地适应文档集合的动态扩充。同时进行了两种模型算法时间的复杂度的比较分析。理论分析和实验结果表明,基于此模型实现的信息检索算法具有较快的查找速度和较高的查准率。
- 付克志林鸿飞
- 关键词:向量空间模型查全率查准率时间复杂度
- 生物医学文献中的蛋白质相互作用关系抽取系统
- 从生物医学文献中抽取蛋白质(基因)相互作用关系对蛋白质知识网络的建立,蛋白质关系的预测,新药的研制等均具有重要的意义。本文提出了一个生物医学文献中的蛋白质相互作用关系抽取系统。该系统首先使用条件随机域模型对文献进行实体识...
- 吴宝栋杨志豪林鸿飞
- 关键词:指代消解关系抽取
- 文献传递
- 基于语义框架的话题跟踪方法
- 话题跟踪属于话题识别与跟踪(TDT)的一项子任务,是一种基于事件的信息组织技术。话题跟踪任务就是根据话题相关的训练新闻报道,在后续报道中发现与这个话题相关的所有报道。针对传统的向量空间模型的不足,文章提出了一种利用语义框...
- 林鸿飞宋丹杨志豪
- 关键词:语义框架向量空间模型
- 文献传递
- 基于互信息的中文姓名识别方法被引量:27
- 2004年
- 提出并实现了一个基于互信息的中文姓名识别方法.该方法充分挖掘姓名和其上下文信息的关联程度以及姓名用字之间关联程度的信息,引入互信息对其进行定量的描述;提出中文姓名的上下文互信息、内部互信息等概念,并对其建立了动态评价函数.开放测试结果表明,该方法有效地提高了中文姓名识别的效果,保证了较高的精确率和召回率.
- 黄德根马玉霞杨元生
- 关键词:中文姓名互信息上下文召回识别方法