2025年2月20日
星期四
|
欢迎来到叙永县图书馆•公共文化服务平台
登录
|
注册
|
进入后台
[
APP下载]
[
APP下载]
扫一扫,既下载
全民阅读
职业技能
专家智库
参考咨询
您的位置:
专家智库
>
>
赵静
作品数:
1
被引量:0
H指数:0
供职机构:
煤炭工业太原设计研究院
更多>>
相关领域:
自动化与计算机技术
更多>>
合作作者
王益强
山西省电力公司
作品列表
供职机构
相关作者
所获基金
研究领域
题名
作者
机构
关键词
文摘
任意字段
作者
题名
机构
关键词
文摘
任意字段
在结果中检索
文献类型
1篇
中文期刊文章
领域
1篇
自动化与计算...
主题
1篇
数据采集
1篇
数据自动采集
1篇
爬虫
1篇
网络
1篇
网络爬虫
1篇
网页
1篇
网页文本
1篇
DEEPWE...
机构
1篇
山西省电力公...
1篇
煤炭工业太原...
作者
1篇
赵静
1篇
王益强
传媒
1篇
信息与电脑(...
年份
1篇
2012
共
1
条 记 录,以下是 1-1
全选
清除
导出
排序方式:
相关度排序
被引量排序
时效排序
网页文本数据自动采集方法综述
2012年
随着互联网的快速发展,网页中的文本数据越来越丰富,人们对互联网数据的自动获取的需求也变得越来越高。例如,各大网站最新新闻、股票信息、天气信息、交通信息、商品信息、博客和微博信息等等。但是,由于网页开发技术的发展,往往通过传统的直接下载网页的方法很难获得所需要的数据。需要针对不同网页的具体特点,设计相应的数据采集方法。本文首先从文本数据采集的角度,对网页类型进行了划分;然后基于这个划分,归纳和整理了相应的数据采集方法;最后对这些方法进行综合对比分析。
王益强
赵静
关键词:
数据采集
DEEPWEB
网络爬虫
全选
清除
导出
共1页
<
1
>
聚类工具
0
执行
隐藏
清空
用户登录
用户反馈
标题:
*标题长度不超过50
邮箱:
*
反馈意见:
反馈意见字数长度不超过255
验证码:
看不清楚?点击换一张