您的位置: 专家智库 > >

赵静

作品数:1 被引量:0H指数:0
供职机构:煤炭工业太原设计研究院更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇数据采集
  • 1篇数据自动采集
  • 1篇爬虫
  • 1篇网络
  • 1篇网络爬虫
  • 1篇网页
  • 1篇网页文本
  • 1篇DEEPWE...

机构

  • 1篇山西省电力公...
  • 1篇煤炭工业太原...

作者

  • 1篇赵静
  • 1篇王益强

传媒

  • 1篇信息与电脑(...

年份

  • 1篇2012
1 条 记 录,以下是 1-1
排序方式:
网页文本数据自动采集方法综述
2012年
随着互联网的快速发展,网页中的文本数据越来越丰富,人们对互联网数据的自动获取的需求也变得越来越高。例如,各大网站最新新闻、股票信息、天气信息、交通信息、商品信息、博客和微博信息等等。但是,由于网页开发技术的发展,往往通过传统的直接下载网页的方法很难获得所需要的数据。需要针对不同网页的具体特点,设计相应的数据采集方法。本文首先从文本数据采集的角度,对网页类型进行了划分;然后基于这个划分,归纳和整理了相应的数据采集方法;最后对这些方法进行综合对比分析。
王益强赵静
关键词:数据采集DEEPWEB网络爬虫
共1页<1>
聚类工具0