爬虫阶段_william_liu1的博客-CSDN博客

爬虫阶段

关注

文章平均质量分 71

爬虫阶段重点

关注数：文章数：19 文章阅读量：13704 文章收藏量：204

作者: william_liu1

这个作者很懒，什么都没留下…

展开

专栏收录文章

9-python之数据保存到excel

以上就是python使用openpyxl模块保存Excel数据的简单操作。

原创 2024-12-16 23:26:37 · 924 阅读 · 0 评论
8-python之数据解析bs4方法解析

本文是针对bs4方法使用的简单介绍。

原创 2024-12-15 21:22:30 · 896 阅读 · 0 评论
7-python之数据解析xpath方法解析

print(tree.xpath('/html')) # [html标签对象]最左侧的斜杠：xpath表达式一定要从根标签开始匹配标签非最左侧的斜杠：一个层级 html的儿子title// 最左侧的双斜杠：从html中直接提取到标题（不管title是属于谁的儿子）非最左侧的// 代表后代（儿子，孙子，重孙子....）标签注意特殊情况：有时候参照浏览器的元素面板找标签可以正确找到，但是python通过xpath表达式找不到。

原创 2024-12-14 18:51:02 · 1014 阅读 · 0 评论
6-python之数据解析

字典--通过json.dumps()-》转化为json字符串json字符串--通过json.loads()-》转化为字典。

原创 2024-12-14 00:01:42 · 580 阅读 · 0 评论
5,1 Python请求之cookie

使用：请求某个数据，cookie是必须要加的伪装直接cookie放到请求头先requests请求登录/主页获取响应的cookie requests请求目标url 传入cookie先session请求登录/主页再session请求目标url。

原创 2024-10-15 13:34:44 · 613 阅读 · 0 评论
4-请求与响应（post请求传参）

本文主要是针对python中的post请求传参方式的简单介绍使用。

原创 2024-12-12 22:25:23 · 282 阅读 · 0 评论
3-请求传参与响应

如果从目标url的响应中看到数据格式长得像python中的列表或者字典，可以使用.json的方法获取。分页从0开始，每页显示20条数据，下一页的start值加20。使用input函数可以在控制台中输入内容。params:get请求参数的字典。headers:请求伪装（请求头）得到的数据类型就一定是字符串类型。'keyword': '长沙','cname': '长沙',修改url中kw的参数的值。

原创 2024-12-08 22:21:58 · 495 阅读 · 0 评论
2.python请求与响应

注意伪装有中文乱码的话，可以自动获取响应内容的编码进行设置。

原创 2024-12-07 22:16:01 · 794 阅读 · 0 评论
21，scrapy分布式scrapy-redis

注意伪分布式得到数据之后进行保存，文件名不能重复。

原创 2024-10-16 22:01:50 · 419 阅读 · 0 评论
10-python连接mysql

数据库编程是在应用程序中与数据库交互和管理数据的关键部分。MySQL是一种流行的关系型数据库管理系统（RDBMS），在Python中进行MySQL数据库编程相对容易二、使用步骤1.细节完善代码如下（示例）：2.实例代码如下（示例）：

原创 2024-10-14 17:58:02 · 247 阅读 · 0 评论
20，Scrapy中间件的使用

scrapy中有两个中间件下载中间件DownloaderMiddleware：位于引擎和下载器中间爬虫中间件SpiderMiddleware：位于引擎和爬虫中间，一般不用下载中间件的作用是用来篡改请求和响应，比如篡改请求：加一些请求头，加代理等等，篡改响应就是更改响应的内容注意settings中也要开启中间件才可以DOWNLOADER_MIDDLEWARES={#开启中间件"scrapy4.middlewares.Scrapy4DownloaderMiddleware":

原创 2024-10-13 17:59:44 · 183 阅读 · 0 评论
18.Python第三方框架scrapy之多页数据

代码如下（示例）：# 获取parse方法传递过来的item对象# 获取所有详情车型的数据# 定义一个列表，保存单辆车的详情页数据# 车型名称# 车型：名称，价格yield itemitems.py文件里的内容同一个item在两个方法中需要通过meta参数传递。

原创 2024-10-09 17:03:29 · 1021 阅读 · 0 评论
19-1，scrapy解析详情页数据之CrawlSpider类可实现自动分页

使用方式：CrawlSpider类：定义了一些规则来做跟进爬取，从爬取的页面中获取链接并且进行爬虫scrapy genspider -t crawl 爬虫名爬虫域名。

原创 2024-10-11 17:00:52 · 291 阅读 · 0 评论
19-2，scrapy框架之管道内二进制数据保存

运行scrapy crawl zzsc。

原创 2024-10-11 17:51:41 · 190 阅读 · 0 评论
11-自动化爬虫Selenium（了解）

提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。t=O83AChromeDriver下载安装-CSDN博客https://blog.csdn.net/a1053765496/article/details/140723456。

原创 2024-10-07 00:11:13 · 853 阅读 · 0 评论
15，异步（async）爬虫

推荐的方式：单线程+多个任务当程序中遇到阻塞时，cpu会切换到其它软件工作，不会等待着处理。我们希望在遇到阻塞的时候，cpu可以还继续帮我们执行其它的任务处理方案：协程：当程序遇见了阻塞操作的时候，可以选择性的切换到其它任务上。

原创 2024-10-04 07:08:03 · 379 阅读 · 0 评论
12-自动化爬虫之drissionpage学习

DrissionPage 是一个基于 python 的网页自动化工具。它既能控制浏览器，也能收发数据包，还能把两者合而为一。可兼顾浏览器自动化的便利性和 requests 的高效率。它功能强大，内置无数人性化设计和便捷功能。它的语法简洁而优雅，代码量少，对新手友好。提示：先安装 pip install drissionpage自动化爬虫之drissionpage学习注意点：等待时间懒加载处理方法。

原创 2024-09-27 23:57:41 · 3790 阅读 · 0 评论
16，17-1Python第三方框架之scrapy

安装pip install scrapy查看安装列表pip list得到的信息（版本可能不兼容）Scrapy 2.9.0Twisted-23.8.0scrapy因为scrapy是异步框架，为什么是异步框架，是因为用了Twisted如果使用scrapy2.9.0 会有兼容问题需要手动降版本先卸载 pip uninstall Twisted （可以省略）再安装 pip install Twisted==22.10.01，通过终端命令创建 scrapy startp

原创 2024-09-27 07:38:27 · 558 阅读 · 0 评论
17，Python第三方框架scrapy之html数据解析

代码如下（示例）：注意：.get（）要带小括号，四种方式都要带小括号

原创 2024-09-30 22:53:30 · 177 阅读 · 0 评论

爬虫阶段

作者: william_liu1

9-python之数据保存到excel

8-python之数据解析bs4方法解析

7-python之数据解析xpath方法解析

6-python之数据解析

5,1 Python请求之cookie

4-请求与响应（post请求传参）

3-请求传参与响应

2.python请求与响应

21，scrapy分布式scrapy-redis

10-python连接mysql

20，Scrapy中间件的使用

18.Python第三方框架scrapy之多页数据

19-1，scrapy解析详情页数据之CrawlSpider类可实现自动分页

19-2，scrapy框架之管道内二进制数据保存

11-自动化爬虫Selenium（了解）

15，异步（async）爬虫

12-自动化爬虫之drissionpage学习

16，17-1Python第三方框架之scrapy

17，Python第三方框架scrapy之html数据解析