将网页分成若干部分,对各个table的长宽比属性进行比较,去掉长宽比很大的部分,并对其余table中的内容进行分析,根据内部是否存在和段落文字有关的标签或
等来区分主题内容和噪音内容,在此基础上去除噪音内容。对来自CWT200G语料的132 559个网页进行测试后的结果表明,该方法可以有效地去除网页噪音,使索引文件减少约75%,大大地提高了检索速度,准确度也得到一定提高。
时达明林鸿飞杨志豪关键词:信息检索网页噪音- Blog热点话题发现及其作者声誉度研究
- 目前对话题识别和话题跟踪的研究非常多,但这大都是对新闻事件进行分析。随着Web2.0的发展,人们对于网络的使用方式大大改变,即人的参与性大大增加,所以众多基于Web2.0的应用系统应运而生,其中Blog就是主要代表之一。...
- 时达明
- 关键词:BLOG情感分析
- 文献传递
- 基于内容相关度和情感分析的Blogger声誉度研究
- Blog 是目前 Intemet 上一种非常重要的媒体,它可以提供给用户方便地发表自己的观点和评论, 其中的评论信息是 Blog 中重要的特点。本文提出了一种基于内容相关度和情感分析的 Blogger 声誉度研究方法,该...
- 时达明林鸿飞
- 关键词:BLOG情感分析
- 文献传递
- 基于内容相关度和情感分析的Blog作者声誉度研究
- Blog是目前Internet上一种非常重要的媒体,它可以提供给用户方便地发表自己的观点和评论,其中的评论信息是Blog中重要的特点。本文提出了一种基于内容相关度和情感分析的Blog作者声誉度研究方法,该方法充分利用Bl...
- 时达明林鸿飞
- 关键词:情感分析
- 文献传递
- 基于模板化的Blog信息抽取被引量:8
- 2008年
- Blog(博客)可以称为在线个人日志。作为一种新兴的媒体,Blog目前已经成为一种在Web上表达个人观点和情感的一种非常流行的方式。那么如何从Blog中快速准确地抽取有用的信息(话题发布时间、话题题目、话题内容、评论内容等)就成为了Blog应用中一个非常重要的步骤。提出了一种基于模板化的Blog信息抽取方法,该方法通过分析Blog网站的HTML源代码,然后提取出网站的模板,并根据该模板对Blog网页进行信息抽取。对来自国内10个著名博客网站进行模板的提取,并对这10个网站中的7374个Blog网页进行了实验,实验结果表明,该方法能根据提取出的模板快速、准确地对Blog网页进行信息抽取。
- 时达明林鸿飞赵晶
- 关键词:信息抽取
- 基于粗糙集属性约简的文本分类被引量:8
- 2007年
- 基于属性约简的方法,放弃以往复杂的规则匹配算法,提出将约简后的多种属性组进行析取,筛选特征项,并构造分类器.实验结果表明,此算法不仅简单,还能降低维数和提高分类结果.
- 倪茂树时达明林鸿飞
- 关键词:文本分类向量空间模型粗糙集属性约简
- 基于内容相关度和语义分析的Blog热点话题发现
- 目前对话题识别和话题跟踪的研究非常多,但这大都是对新闻事件进行分析,Blog 是目前 Internet 上一种非常重要的媒体,它可以提供给用户方便地发表自己的观点并可以对其他人的观点进行评论,其中的评论信息是其它新闻事件...
- 时达明林鸿飞
- 关键词:BLOG信息抽取语义分析
- 文献传递