1. 爬虫基础

本文介绍了Python爬虫的基础知识,包括正则表达式、BFS和DFS网页遍历策略、字符编码,以及为什么选择Scrapy框架。强调了Python基础和Web基础的重要性,并对爬虫的作用、去重策略进行了讲解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

  • 这几篇博客是一个系列,最终目标是能独立编写爬虫项目
  • 技术点包括反爬处理手段、正则表达式使用、抓包技术、模拟请求等,熟练掌握urllib模块,最终还要学习Scrapy框架
  • 当然,也可能会结合其他模块,提升效率必须要有模块化的思想
  • 如果你是小白,想快速感受一下爬虫到底要怎么做,可以看我的github博客

Python基础

  • 这里要用到的Python基础包括
    • 基础语法
    • 函数及模块
    • 文件操作
    • 异常处理
    • 面向对象编程
  • 在我的Python基础专栏有详细介绍,这里就不赘述,但这些东西是必须要会的!

Web基础

  • 爬虫是在爬网页信息(当然也包含APP等)&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Roy_Allen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值