用Java和webmagic爬取图片并下载到本地(动态网页)

本文介绍了如何使用Java和webmagic库来爬取动态网页上的图片并将其下载到本地。针对动态页面,webmagic提供了方便的爬取功能,无需借助selenium。以http://pic.sogou.com/pics?query=%CD%BC%C6%AC&p=40230500&st=255&mode=255为例,解析网页源码发现图片信息隐藏在<script>标签内。通过开发者工具找到图片所在的<li>标签,编写代码进行提取并下载。注意实际下载的图片数量可能少于网页显示,原因在于部分链接不符合预期的匹配规则,需通过正则或xpath过滤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

上篇记录了一下用java代码爬取图片并下载到本地的代码,但是那只是对于一张图片。如果要很多图片的话,

就需要把代码改一下。如果是静态页面,可以不用webmagic(不过用webmagic更加方便);动态的话,需要

用到selenium。在这里就直接使用webmagic了,因为webmagic将爬虫需要用到的方法封装好了,而且也可以

模拟启动浏览器来爬取动态页面。

这次爬取的图片链接是:http://pic.sogou.com/pics?query=%CD%BC%C6%AC&p=40230500&st=255&mode=255

进入网页并右键查看网页源代码可以看到每一张图片的信息都在<script>标签中写着,源代码中并没有很明确的

图片地址,说明是动态网页。那么先使用开发者工具查看网页源码。

打开开发者工具方式:

1、进入网页,然后敲键盘上的F12键即可;

2、右击鼠标,单击检查即可(如下图)。


打开后的页面为:

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值