scrapy下载大文件失败问题

当使用Scrapy爬虫下载大量高分辨率图片和视频时,可能会遇到因超时导致的连接失败问题。本文介绍了一种解决方案:通过调整settings.py中的CONCURRENT_REQUESTS和DOWNLOAD_TIMEOUT参数来减少并发请求数量并增加超时时间。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

利用scrapy下载大量大尺寸图片及视频时有时会报错,显示放弃重试,用户连接时间超过180s导致失去连接 如下

Gave up retrying <GET url> (failed 3 times): User timeout caused connection failure: Getting url took longer than 180.0 seconds..

这是由于scrapy并发请求过多,默认情况下会同时下载16个文件,而连接时间默认超过三分钟就会丢失。就是说如果三分钟之内你的网速没法支持你同时下载完16个文件的话就会造成这个问题。

解决方法就是在settings.py中将默认并发连接数调小或者将timeout时间调大

CONCURRENT_REQUESTS = 2
DOWNLOAD_TIMEOUT=1800

此时并发请求被调成2, 等待时间被1800秒,一般的小视频和图片是没有问题了。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值