
爬虫阶段
文章平均质量分 71
爬虫阶段重点
william_liu1
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
9-python之数据保存到excel
以上就是python使用openpyxl模块保存Excel数据的简单操作。原创 2024-12-16 23:26:37 · 924 阅读 · 0 评论 -
8-python之数据解析bs4方法解析
本文是针对bs4方法使用的简单介绍。原创 2024-12-15 21:22:30 · 896 阅读 · 0 评论 -
7-python之数据解析xpath方法解析
print(tree.xpath('/html')) # [html标签对象]最左侧的斜杠:xpath表达式一定要从根标签开始匹配标签非最左侧的斜杠:一个层级 html的儿子title// 最左侧的双斜杠:从html中直接提取到标题(不管title是属于谁的儿子)非最左侧的// 代表后代(儿子,孙子,重孙子....)标签注意特殊情况:有时候参照浏览器的元素面板找标签可以正确找到,但是python通过xpath表达式找不到。原创 2024-12-14 18:51:02 · 1014 阅读 · 0 评论 -
6-python之数据解析
字典--通过json.dumps()-》转化为json字符串json字符串--通过json.loads()-》转化为字典。原创 2024-12-14 00:01:42 · 580 阅读 · 0 评论 -
5,1 Python请求之cookie
使用:请求某个数据,cookie是必须要加的伪装直接cookie放到请求头先requests请求登录/主页 获取响应的cookie requests请求目标url 传入cookie先session请求登录/主页 再session请求目标url。原创 2024-10-15 13:34:44 · 613 阅读 · 0 评论 -
4-请求与响应(post请求传参)
本文主要是针对python中的post请求传参方式的简单介绍使用。原创 2024-12-12 22:25:23 · 282 阅读 · 0 评论 -
3-请求传参与响应
如果从目标url的响应中看到数据格式长得像python中的列表或者字典,可以使用.json的方法获取。分页从0开始,每页显示20条数据,下一页的start值加20。使用input函数可以在控制台中输入内容。params:get请求参数的字典。headers:请求伪装(请求头)得到的数据类型就一定是字符串类型。'keyword': '长沙','cname': '长沙',修改url中kw的参数的值。原创 2024-12-08 22:21:58 · 495 阅读 · 0 评论 -
2.python请求与响应
注意伪装有中文乱码的话,可以自动获取响应内容的编码进行设置。原创 2024-12-07 22:16:01 · 794 阅读 · 0 评论 -
21,scrapy分布式scrapy-redis
注意伪分布式得到数据之后进行保存,文件名不能重复。原创 2024-10-16 22:01:50 · 419 阅读 · 0 评论 -
10-python连接mysql
数据库编程是在应用程序中与数据库交互和管理数据的关键部分。MySQL是一种流行的关系型数据库管理系统(RDBMS),在Python中进行MySQL数据库编程相对容易二、使用步骤1.细节完善代码如下(示例):2.实例代码如下(示例):原创 2024-10-14 17:58:02 · 247 阅读 · 0 评论 -
20,Scrapy中间件的使用
scrapy中有两个中间件下载中间件DownloaderMiddleware:位于引擎和下载器中间爬虫中间件SpiderMiddleware:位于引擎和爬虫中间,一般不用下载中间件的作用是用来篡改请求和响应,比如篡改请求:加一些请求头,加代理等等,篡改响应就是更改响应的内容注意settings中也要开启中间件才可以DOWNLOADER_MIDDLEWARES={#开启中间件"scrapy4.middlewares.Scrapy4DownloaderMiddleware":原创 2024-10-13 17:59:44 · 183 阅读 · 0 评论 -
18.Python第三方框架scrapy之多页数据
代码如下(示例):# 获取parse方法传递过来的item对象# 获取所有详情车型的数据# 定义一个列表,保存单辆车的详情页数据# 车型名称# 车型:名称,价格yield itemitems.py文件里的内容同一个item在两个方法中需要通过meta参数传递。原创 2024-10-09 17:03:29 · 1021 阅读 · 0 评论 -
19-1,scrapy解析详情页数据之CrawlSpider类可实现自动分页
使用方式:CrawlSpider类:定义了一些规则来做跟进爬取,从爬取的页面中获取链接并且进行爬虫scrapy genspider -t crawl 爬虫名 爬虫域名。原创 2024-10-11 17:00:52 · 291 阅读 · 0 评论 -
19-2,scrapy框架之管道内二进制数据保存
运行scrapy crawl zzsc。原创 2024-10-11 17:51:41 · 190 阅读 · 0 评论 -
11-自动化爬虫Selenium(了解)
提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。t=O83AChromeDriver下载安装-CSDN博客https://blog.csdn.net/a1053765496/article/details/140723456。原创 2024-10-07 00:11:13 · 853 阅读 · 0 评论 -
15,异步(async)爬虫
推荐的方式: 单线程+多个任务 当程序中遇到阻塞时,cpu会切换到其它软件工作,不会等待着处理。我们希望在遇到阻塞的时候,cpu可以还继续 帮我们执 行其它的任务处理方案:协程:当程序遇见了阻塞操作的时候,可以选择性的切换到其它任务上。原创 2024-10-04 07:08:03 · 379 阅读 · 0 评论 -
12-自动化爬虫之drissionpage学习
DrissionPage 是一个基于 python 的网页自动化工具。它既能控制浏览器,也能收发数据包,还能把两者合而为一。可兼顾浏览器自动化的便利性和 requests 的高效率。它功能强大,内置无数人性化设计和便捷功能。它的语法简洁而优雅,代码量少,对新手友好。提示:先安装 pip install drissionpage自动化爬虫之drissionpage学习注意点:等待时间懒加载处理方法。原创 2024-09-27 23:57:41 · 3790 阅读 · 0 评论 -
16,17-1Python第三方框架之scrapy
安装pip install scrapy查看安装列表pip list得到的信息(版本可能不兼容)Scrapy 2.9.0Twisted-23.8.0scrapy因为scrapy是异步框架,为什么是异步框架,是因为用了Twisted如果使用scrapy2.9.0 会有兼容问题需要手动降版本先卸载 pip uninstall Twisted (可以省略)再安装 pip install Twisted==22.10.01,通过终端命令创建 scrapy startp原创 2024-09-27 07:38:27 · 558 阅读 · 0 评论 -
17,Python第三方框架scrapy之html数据解析
代码如下(示例):注意:.get() 要带小括号,四种方式都要带小括号原创 2024-09-30 22:53:30 · 177 阅读 · 0 评论