2.程序员副业兼职天花板,轻松省时省力,私活需求多,比什么Java给别人做软件强一百倍,主要麻烦事多。
课程安排
本爬虫系列分为二个阶段,分别是基础篇,进阶篇。
基础篇
1、介绍学习爬虫之前需要了解的基础知识,如 HTTP、爬虫、代理的基本原理、网页基本结构等内容,对爬虫没有任何了解的读者建议好好了解这一章的知识。
2、介绍最基本的爬虫操作,最基本的两个请求库(urllib 和 requests)和正则表达式的基本用法。学会了这一章,就可以掌握最基本的爬虫技术了。
3、介绍页面解析库的基本用法,包括常用的三大解析库 Beautiful Soup、XPath、pyquery 的基本使用方法,它们可以使得信息的提取更加方便、快捷,是爬虫必备利器。
4、介绍 Ajax 数据爬取的过程,一些网页的数据可能是通过 Ajax 请求 API 接口的方式加载的,用常规方法无法爬取,本章介绍了使用 Ajax 进行数据爬取的方法。
5、介绍数据存储的常见形式及存储操作,包括 TXT、JSON、CSV 各种文件的存储,以及关系型数据库 MySQL 和非关系型数据库 MongoDB、Redis 存储的基本存储操作。学会了这些内容,我们可以灵活方便地保存爬取下来的数据。
进阶篇
1、自动化工具:包括 Selenium、Splash 等工具来实现模拟浏览器进行动态渲染页面的数据爬取方法。
2、验证码:包括图形验证码、极验验证码、点触验证码的识别。
3、代理:包括代理的设置,代理池,以及付费代理的使用方法。
4、**模拟登录:**介绍基本的模拟登录方法,包括基于Session + Cookie模拟登录和基于JWT的模拟登录。
5、JS逆向:包括常见的网站混淆技术、JS逆向常用调试方法和Hook技术、JS模拟执行的