2024年【Python爬虫教程】基础篇-01爬虫介绍与课程规划(1)

最新推荐文章于 2025-06-06 23:45:51 发布

原创

最新推荐文章于 2025-06-06 23:45:51 发布 · 1k 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #爬虫 #开发语言

2.程序员副业兼职天花板，轻松省时省力，私活需求多，比什么Java给别人做软件强一百倍，主要麻烦事多。

课程安排

本爬虫系列分为二个阶段，分别是基础篇，进阶篇。

基础篇

1、介绍学习爬虫之前需要了解的基础知识，如 HTTP、爬虫、代理的基本原理、网页基本结构等内容，对爬虫没有任何了解的读者建议好好了解这一章的知识。

2、介绍最基本的爬虫操作，最基本的两个请求库（urllib 和 requests）和正则表达式的基本用法。学会了这一章，就可以掌握最基本的爬虫技术了。

3、介绍页面解析库的基本用法，包括常用的三大解析库 Beautiful Soup、XPath、pyquery 的基本使用方法，它们可以使得信息的提取更加方便、快捷，是爬虫必备利器。

4、介绍 Ajax 数据爬取的过程，一些网页的数据可能是通过 Ajax 请求 API 接口的方式加载的，用常规方法无法爬取，本章介绍了使用 Ajax 进行数据爬取的方法。

5、介绍数据存储的常见形式及存储操作，包括 TXT、JSON、CSV 各种文件的存储，以及关系型数据库 MySQL 和非关系型数据库 MongoDB、Redis 存储的基本存储操作。学会了这些内容，我们可以灵活方便地保存爬取下来的数据。

进阶篇

1、自动化工具：包括 Selenium、Splash 等工具来实现模拟浏览器进行动态渲染页面的数据爬取方法。

2、验证码：包括图形验证码、极验验证码、点触验证码的识别。

3、代理：包括代理的设置，代理池，以及付费代理的使用方法。

4、**模拟登录：**介绍基本的模拟登录方法，包括基于Session + Cookie模拟登录和基于JWT的模拟登录。

5、JS逆向：包括常见的网站混淆技术、JS逆向常用调试方法和Hook技术、JS模拟执行的

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。