自动化爬虫DrissionPage

最新推荐文章于 2025-06-24 10:17:05 发布

原创

最新推荐文章于 2025-06-24 10:17:05 发布 · 2.1k 阅读

·

10

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#爬虫 #自动化 #python

自动化爬虫DrissionPage

目录

1.使用自动化爬虫DrissionPage

2.操作浏览器并爬取数据保存到本地

3.实战

我们在讲之前, 说说DrissionPage和Selenium这两个自动化爬虫之间的对比。

Selenium自动话爬虫需要下载对应版本的浏览器的驱动并将驱动放置到项目文件夹里面去, 需要用代码Service(r’chromedriver.exe’)来指定驱动的路径, 而DrissionPage自动化爬虫不需要这些操作。

DrissionPage相对比Selenium的语法稍微简单些。

我还是更推荐大家之后去使用DrissionPage。但不代表Selenium没有存在的意义, 很多网站的自动化爬虫的方法, 也都在用Selenium。

一、使用自动化爬虫DrissionPage

我们在使用自动化DrissionPage爬虫之前, 需要安装第三方库。
pip install drissionpage
安装好以后均可使用。

导包:
from DrissionPage._configs.chromium_options import ChromiumOptions
from DrissionPage._pages.chromium_page import ChromiumPage
我们创建一个浏览器对象, 并打开网页
page = ChromiumPage()
page.get('https://www.mi.com/shop/category/list')
结果:

我们成功的打开了网页。

DrissionPage的基本操作

获取网页的源代码:
print(page.html)
解析数据, 获取标签对象:
浏览器对象.ele() #拿一个标签
浏览器对象.eles() #拿多个标签
根据标签名获取标签对象(tag:标签名):
print(page.ele('tag:div'))
返回结果:如果根据表达式能够成功获取到某一个标签，则返回标签对象，反之则获取None。
print(page.eles('tag:div'))
返回结果:如果根据表达式能够成功获取到标签，则返回列表，列表中装标签对象，反之则获取空列表。

同理, 还有id, class, name等属性, xpath之类的操作。

通过id属性获取标签对象 id=‘app’ #app:
print(page.ele('#app'))
通过class属性获取标签对象 class=“breadcrumbs” .breadcrumbs:
print(page.ele('.breadcrumbs'))
通过name属性获取标签对象 @属性名=属性值:
print(page.ele('@name=description')

最低0.47元/天解锁文章

200万优质内容无限畅学

声声codeGrandMaster

博客等级

码龄4年

51
原创

1031
点赞

982
收藏

534
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 自动化爬虫Selenium

下一篇：: Scrapy框架入门

最新评论

Scrapy框架入门
北风之神c: 你可以一试，要是没觉得卧槽大吃一惊，我发100红包你。
Scrapy数据解析+保存数据
北风之神c: 你这个scrapy爬虫总结的很全面很有条理，写得好赞，博主用心了！看完你的这篇博文，忍不住想聊聊我自己用过的另一种方法：但是scrapy来爬虫非常麻烦，写法难度高，国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，因为从根本理念上对scrapy api方式的框架造成巨大的降维打击。昔有Scrapy窃据神器，挟Twisted之技而令诸侯，然其框架繁苛，回调如狱，岁月更迭，其势已衰，其道已孤，弊病丛生，开发者苦之久矣！今有Funboost，顺天应人，聚函数神力，携`@boost`之雷霆，以大道至简之义，破枷锁，扫陈规，伐无道，正本清源，布告天下！此诚不可逆之大势也！依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html Scrapy十败如山崩，Funboost十胜如日升！ funboost剑锋所指，scrapy框架枷锁必将斩断！函数光辉，普照四海！ pip install funboost
Scrapy框架入门
北风之神c: 总结的很全面的scrapy爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html 夫天下爬虫，当顺天命。Scrapy十败如山崩，Funboost十胜如日升。
uni-app开发特殊社交APP
声声codeGrandMaster: 这个项目在GitHub里面有, GitHub网址写在文章的最下面了, 大家可以打开链接访问, 代码公开了, 前后端都有, 可以下载到自己电脑, 不要忘记给博主点star哦, 非常感谢大家支持!!!
爬虫+数据保存
声声codeGrandMaster: 没事，我们都是在学习的路上，一起努力进步

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。