数据采集与预处理01: 项目1 数据采集与预处理准备

数据采集与预处理01: 项目1 数据采集与预处理准备

img

任务1 认识数据采集技术,熟悉数据采集平台

数据采集:足够的数据量是企业大数据战略建设的基础,因此数据采集成为大数据分析的前站。数据采集是大数据价值挖掘中重要的一环,其后的分析挖掘都建立在数据采集的基础上。大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从而分析和挖掘出有价值的信息,但前提是拥有大量的数据。

数据采集过程中涉及3个过程:数据的抽取Extract,数据的清洗转换Transform和数据的加载Load。英文缩写为ETL。

数据采集的来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。

数据采集的方法:

​ 数据采集的新方法有系统日志采集方法、网络数据采集方法等

​ 另外有网页数据采集的方法。

数据采集的过程基本步骤如下:

  1. 将需要抓取的数据网站的URL信息写入URL队列。
  2. 爬虫从URL队列中获取需要抓取数据网站的URL信息。
  3. 获取某个具体网站的网页内容。
  4. 从网页内容中抽取出该该网站正文页内容的链接地址。
  5. 从数据库中读取已经抓取国内容的网页地址。
  6. 过滤URL。对当前的URL和已经抓去过的URL进行比较。
  7. 如果该网页地址没被抓去过,则将该地址写入数据库。如果该地址已经被抓取过,则放弃对这个地址的抓取操作。
  8. 获取该地址的网页内容,并抽取出所需属性的内容值。
  9. 将抽取的网页内容写入数据库。

任务实施

  1. Scrapy系统环境搭建

Scrapy

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值