
python 一大用途就是爬取网页数据,这篇我们来用 python 爬取网页图片数据,其中网
页可以分为静态网页和动态网页,其中静态网页我们一般用 requests 库,动态网页我们需
要用到 selenium 库,先来看静态网页爬取。
1:静态网页爬取
我们先打开一个网页,网址是不羞涩 | 真实的图片分享交友社区,打开后我们看到内
容如下:
点击下一页,我们看到网址变为:
所以网址变化规律为每一页都是在基本地址“https://www.buxiuse.com/” 后面加上
page=数字,我们爬取前 60 页的图片。按 F12 审查元素,我们可以看到图片元素的标签是:
图片地址在 img 标签里面,且在 src 属性值里面,那么可以先定位到 img 标签,再提取 src
属性的值便可获取图片地址,我们用到 xpath 库来提取元素,那么提取图片地址的写法便可
以是