2025年1月25日
星期六
|
欢迎来到叙永县图书馆•公共文化服务平台
登录
|
注册
|
进入后台
[
APP下载]
[
APP下载]
扫一扫,既下载
全民阅读
职业技能
专家智库
参考咨询
您的位置:
专家智库
>
>
胡晶晶
作品数:
1
被引量:19
H指数:1
供职机构:
中国科学院声学研究所
更多>>
相关领域:
自动化与计算机技术
更多>>
合作作者
王劲林
中国科学院声学研究所
白鹤
中国科学院声学研究所
李蕾
中国科学院声学研究所
作品列表
供职机构
相关作者
所获基金
研究领域
题名
作者
机构
关键词
文摘
任意字段
作者
题名
机构
关键词
文摘
任意字段
在结果中检索
文献类型
1篇
中文期刊文章
领域
1篇
自动化与计算...
主题
1篇
信息处理
1篇
信息提取
1篇
页面
1篇
页面结构
1篇
中文
1篇
中文信息
1篇
中文信息处理
1篇
网页
1篇
网页正文
1篇
WEB页
1篇
WEB页面
1篇
FFT
机构
1篇
中国科学院
作者
1篇
李蕾
1篇
白鹤
1篇
王劲林
1篇
胡晶晶
传媒
1篇
计算机工程与...
年份
1篇
2007
共
1
条 记 录,以下是 1-1
全选
清除
导出
排序方式:
相关度排序
被引量排序
时效排序
基于FFT的网页正文提取算法研究与实现
被引量:19
2007年
主要研究"正文式"网页的有效信息提取算法。该种底层网页真正含有Web页面所表达的主题信息,通常包含一大段的正文信息,正文信息的前后是一些格式信息(例如导航信息、交互信息、JavaScript脚本等)。分析了此种网页的页面结构特征,将问题转化为——给定一个底层网页的HTML源文件,求解最佳的正文区间;从而提出了一种基于快速傅立叶变换的网页正文内容提取算法。采用窗口分段的方法,利用统计学原理和FFT,得出每个可能区间的权值,从而求解出最佳正文区间。实验结果表明,此种方法能比较准确的对"正文式"网页的有效信息进行提取。
李蕾
王劲林
白鹤
胡晶晶
关键词:
中文信息处理
WEB页面
信息提取
页面结构
FFT
全选
清除
导出
共1页
<
1
>
聚类工具
0
执行
隐藏
清空
用户登录
用户反馈
标题:
*标题长度不超过50
邮箱:
*
反馈意见:
反馈意见字数长度不超过255
验证码:
看不清楚?点击换一张